لا يزال انتحال الملفات أحد أكثر الأساليب فعالية التي يستخدمها المهاجمون لتجاوز الضوابط الأمنية التقليدية. في العام الماضي، قدمنا في OPSWAT محرك الكشف عن نوع الملف المعزز بالذكاء الاصطناعي لسد الثغرات التي خلفتها الأدوات القديمة. وفي هذا العام، مع نموذج الكشف عن نوع الملف الإصدار 3، قمنا بتطوير هذه القدرة من خلال التركيز على أنواع الملفات التي تكون الدقة فيها أكثر أهمية، وحيثما تقصر الأنظمة التقليدية القائمة على المنطق باستمرار.
صُمم نموذج OPSWAT للكشف عن نوع الملف الإصدار 3 لمعالجة تحدٍ محدد يتمثل في التصنيف الموثوق للملفات الغامضة وغير المهيكلة، وخاصةً التنسيقات النصية مثل البرامج النصية وملفات التكوين والتعليمات البرمجية المصدرية. على عكس المصنفات المعممة، تم تصميم هذا النموذج خصيصًا لحالات استخدام الأمن السيبراني، حيث يمكن أن يؤدي التصنيف الخاطئ لبرنامج نصي برمجي أو الفشل في اكتشاف مستند يحتوي على وحدات ماكرو مضمنة، مثل ملف Word مع رمز VBA، إلى مخاطر أمنية كبيرة.
لماذا يعد اكتشاف نوع الملف الحقيقي أمرًا بالغ الأهمية
تعتمد معظم أنظمة الكشف على ثلاثة أساليب مشتركة:
- امتداد الملف: تتحقق هذه الطريقة من اسم الملف لتحديد نوعه بناءً على الامتداد، مثل .doc أو .exe. وهي سريعة ومتوافقة على نطاق واسع عبر الأنظمة الأساسية. ومع ذلك، يمكن التلاعب بها بسهولة. يمكن إعادة تسمية ملف خبيث بامتداد يبدو آمنًا، كما أن بعض الأنظمة تتجاهل الامتدادات تمامًا، مما يجعل هذا الأسلوب غير موثوق به.
- البايتات السحرية: وهي عبارة عن تسلسلات ثابتة توجد في بداية العديد من الملفات المنظمة، مثل ملفات PDF أو الصور. تعمل هذه الطريقة على تحسين الدقة على امتدادات الملفات من خلال فحص محتوى الملف الفعلي. العيب هو أنه لا تحتوي جميع أنواع الملفات على أنماط بايت محددة بشكل جيد. يمكن أيضًا أن يتم انتحال البايتات السحرية، وقد تؤدي المعايير غير المتسقة عبر الأدوات إلى حدوث ارتباك.
- تحليل توزيع الأحرف: تحلل هذه الطريقة المحتوى الفعلي للملف لاستنتاج نوعه. وهي مفيدة بشكل خاص في تحديد التنسيقات المستندة إلى نصوص فضفاضة التنظيم، مثل البرامج النصية أو ملفات التكوين. على الرغم من أنها توفر رؤية أعمق، إلا أنها تأتي بتكاليف معالجة أعلى وقد تنتج نتائج إيجابية خاطئة بمحتوى غير عادي. كما أنها أقل فعالية للملفات الثنائية التي تفتقر إلى أنماط أحرف قابلة للقراءة.
تعمل هذه الأساليب بشكل جيد مع التنسيقات المهيكلة ولكنها تصبح غير موثوقة عند تطبيقها على الملفات غير المهيكلة أو النصية. على سبيل المثال، يمكن أن يتشابه البرنامج النصي الذي يحتوي على الحد الأدنى من الأوامر مع ملف نصي عادي. وتفتقر العديد من هذه الملفات إلى رؤوس قوية أو علامات متناسقة، مما يجعل التصنيف بناءً على أنماط البايت أو الامتدادات غير كافٍ. يستغل المهاجمون هذا الغموض لإخفاء البرامج النصية الخبيثة على أنها مستندات أو سجلات غير ضارة.
لم يتم تصميم الأدوات القديمة مثل TrID و LibMagic لهذا المستوى من الدقة. وعلى الرغم من فعاليتها في التصنيف العام للملفات، إلا أنها صُممت لتوسيع نطاقها وسرعتها، وليس للكشف المتخصص في ظل قيود أمنية.
كيفية عمل نموذج الكشف عن نوع الملف v3
تتكون عملية تدريب نموذج اكتشاف نوع الملف v3 من مرحلتين. في المرحلة الأولى، يتم إجراء تدريب مسبق متكيف مع المجال باستخدام نمذجة اللغة المقنعة (MLM)، مما يسمح للنموذج بتعلم بناء الجملة والأنماط الهيكلية الخاصة بالمجال. في المرحلة الثانية، يتم صقل النموذج على مجموعة بيانات خاضعة للإشراف حيث يتم شرح كل ملف بشكل صريح بنوع الملف الحقيقي الخاص به.
مجموعة البيانات عبارة عن مزيج منسق من الملفات العادية وعينات التهديدات، مما يضمن توازناً قوياً بين الدقة الواقعية والأهمية الأمنية. يحافظ OPSWAT على التحكم في بيانات التدريب، مما يسمح بالتحسين المستمر للتنسيقات الأكثر أهمية للعمليات الأمنية.
يتم تطبيق مكون الذكاء الاصطناعي بدقة وليس على نطاق واسع. يركز نموذج الكشف عن نوع الملف v3 على أنواع الملفات الغامضة وغير المهيكلة التي لا تستطيع طرق الكشف التقليدية التعامل معها بفعالية مثل النصوص البرمجية والسجلات والنصوص غير المنسقة بشكل جيد حيث تكون البنية غير متسقة أو غير موجودة. يظل متوسط وقت الاستدلال أقل من 50 ميلي ثانية، مما يجعله فعالاً لسير العمل في الوقت الحقيقي عبر عمليات التحميل الآمن للملفات وإنفاذ نقطة النهاية وخطوط أنابيب الأتمتة.
النتائج المعيارية
لقد قمنا بقياس محرك OPSWAT للكشف عن نوع الملف مقارنةً بأدوات رائدة في مجال الكشف عن أنواع الملفات باستخدام مجموعة بيانات كبيرة ومتنوعة. تضمنت المقارنة نتائج F1 عبر 248,000 ملف وحوالي 100 نوع ملف.
يدمج محرك OPSWATللكشف عن نوع الملف بين تقنيات متعددة، بما في ذلك TrID وLibMagic وتقنيات OPSWATالخاصة مثل المحللين المتقدمين ونموذج الكشف عن نوع الملف الإصدار 3. يوفر هذا النهج المشترك تصنيفًا أقوى وأكثر موثوقية عبر كل من التنسيقات المهيكلة وغير المهيكلة.
في الاختبار المعياري، حقق المحرك دقة إجمالية أعلى من أي أداة بمفردها. بينما كان أداء أدوات TrID وLibMagic وMagika v3 جيدًا في مناطق معينة، تنخفض دقتها عندما تكون رؤوس الملفات مفقودة أو عندما يكون المحتوى غامضًا. من خلال وضع طبقات الكشف التقليدية مع تحليل عميق للمحتوى، يحافظ OPSWAT على أداء ثابت حتى عندما تكون البنية ضعيفة أو مضللة عن قصد.
الملفات النصية والبرامج النصية
غالبًا ما تكون التنسيقات النصية والمستندة إلى النصوص والبرامج النصية متورطة في التهديدات المنقولة بالملفات والحركة الجانبية. أجرينا اختبارًا مركّزًا على 169,000 ملف عبر تنسيقات مثل .sh، .py، .ps1,
و .conf
.
أظهر TrID و LibMagic قيودًا في اكتشاف هذه الملفات غير المهيكلة. فقد تدهور أداؤها بسرعة عندما انحرف محتوى الملف عن أنماط البايت المتوقعة.
نموذج الكشف عن نوع الملف v3 مقابل Magika v3
لقد قمنا بتقييم نموذج OPSWAT للكشف عن نوع الملف OPSWAT الإصدار 3 مقابل Magika الإصدار 3، وهو مصنف الذكاء الاصطناعي مفتوح المصدر من Google، عبر 30 نوعًا من الملفات النصية والبرامج النصية باستخدام نفس مجموعة البيانات التي تضم 500,000 ملف.
الملاحظات الرئيسية:
- يتطابق نموذج اكتشاف نوع الملف v3 مع نموذج Magika أو يتفوق عليه في جميع التنسيقات تقريبًا.
- شوهدت أقوى المكاسب في التنسيقات المحددة بشكل فضفاض مثل
.bat, .perl, .html,
و .xml.
- على عكس Magika، المصمم للتعرف على الأغراض العامة، تم تحسين نموذج الكشف عن نوع الملف v3 للتنسيقات عالية الخطورة حيث يكون للتصنيف الخاطئ آثار أمنية خطيرة.
أهم حالات الاستخدام
تحميل الملفات وتنزيلها ونقلها Secure
منع الملفات المقنعة أو الخبيثة من الدخول إلى بيئتك من خلال بوابات الويب أو مرفقات البريد الإلكتروني أو أنظمة نقل الملفات. يتجاوز الاكتشاف المحسّن بالذكاء الاصطناعي الامتدادات ورؤوس MIME لتحديد البرامج النصية أو وحدات الماكرو أو الملفات التنفيذية المضمنة داخل الملفات المعاد تسميتها.
خطوط أنابيب DevSecOps
أوقف القطع الأثرية غير الآمنة قبل أن تلوث بيئات إنشاء البرامج أو نشرها. من خلال التحقق من صحة نوع الملف الحقيقي استناداً إلى المحتوى الفعلي، يضمن MetaDefender Core أن التنسيقات المعتمدة فقط هي التي تنتقل عبر خطوط أنابيب CI/CD، مما يقلل من مخاطر هجمات سلسلة التوريد ويحافظ على الامتثال لممارسات التطوير الآمنة.
إنفاذ الامتثال
يعد الاكتشاف الدقيق لنوع الملف أمرًا ضروريًا لتلبية التفويضات التنظيمية مثل HIPAA وPCI DSS وGDPR وNIST 800-53، والتي تتطلب رقابة صارمة على سلامة البيانات وأمن النظام. يساعد الكشف عن أنواع الملفات المخادعة أو غير المصرح بها وحظرها في فرض السياسات التي تمنع انكشاف البيانات الحساسة، والحفاظ على جاهزية التدقيق، وتجنب العقوبات المكلفة.
افكار اخيرة
تُعد مصنفات الملفات ذات الأغراض العامة مثل Magika مفيدة لتصنيف المحتوى على نطاق واسع. ولكن في مجال الأمن السيبراني، الدقة أكثر أهمية من التغطية. يمكن أن يكون نص برمجي واحد خاطئ أو ماكرو واحد مصنف بشكل خاطئ هو الفرق بين الاحتواء والاختراق.
يوفر محرك OPSWAT للكشف عن نوع الملف هذه الدقة. من خلال الجمع بين تحليل نوع الملف المحسّن بالذكاء الاصطناعي وأساليب الكشف التي أثبتت جدواها، فإنه يوفر طبقة تصنيف يمكن الاعتماد عليها حيث تفشل الأدوات التقليدية، خاصة في التنسيقات الغامضة أو غير المنظمة. لا يتعلق الأمر باستبدال كل شيء؛ بل يتعلق بتعزيز نقاط الضعف الحرجة في حزمة الأمان الخاصة بك من خلال الكشف في الوقت الحقيقي، مع إدراك السياق.