الخطر الخفي الكامن في تنسيق ملف موثوق به
تعد ملفات PDF من أكثر تنسيقات المستندات موثوقيةً واستخدامًا على نطاق واسع في بيئات المؤسسات. ويتم تبادلها يوميًا عبر البريد الإلكتروني ومنصات مشاركة الملفات أدوات التعاون. وبسبب هذه الثقة بالذات، أصبحت هذه الملفات أحد أكثر الوسائل التي يتم استغلالها باستمرار في حملات التصيد الاحتيالي ونشر البرامج الضارة وهجمات الهندسة الاجتماعية.
وفقًا لـ Check Point Research، يستخدم 22% من الهجمات الإلكترونية القائمة على الملفات ملفات PDF كآلية لنقل الفيروسات، كما أن 68% من إجمالي الهجمات الإلكترونية تنشأ من صندوق البريد الوارد. وما لا يدركه الكثيرون هو أن ملفات PDF ليست مجرد حاويات للمحتوى المرئي. فهي مستندات منظمة ذات بنية داخلية محددة، وتختلف طريقة تحليل هذه البنية باختلاف برامج القراءة أدوات الأمان وأنظمة الذكاء الاصطناعي.
هذا التباين ليس خطأً برمجياً. إنه سمة من سمات التصميم، وقد تعلمت الجهات الخبيثة المتطورة كيفية استغلاله بطرق لا تتطلب وجود ثغرة أمنية، ولا مجموعة أدوات استغلال، ولا أدوات متطورة.
فهم بنية ملفات PDF
لفهم كيفية عمل هجوم التسلسل، من الضروري أولاً فهم كيفية قراءة برامج تحليل ملفات PDF للمستند.
عندما يفتح برنامج قراءة ملفات PDF ملفًا ما، فإنه يتبع تسلسلًا محددًا: حيث يحدد موقع آخر علامة لنهاية الملف، ويقرأ مؤشر startxref، ويستخدمه لتحديد موقع جدول الإحالات المرجعية (xref) والملحق، ثم يعيد بناء المستند من خلال تحديد إزاحات الكائنات. وهذا التصميم مقصود، حيث يتيح لبرامج القراءة تحديد مواقع الكائنات على الفور في المستندات الكبيرة دون الحاجة إلى مسح الملف بأكمله.

تحدد مواصفات PDF أيضًا آلية تُسمى «التحديثات التراكمية»، والتي تتيح تعديل المستندات دون إعادة كتابة الملف بأكمله. تُلحق التغييرات بنهاية المستند، ويضيف كل تحديث كائنات جديدة، وجدولًا جديدًا للمراجع الخارجية، وملحقًا جديدًا، وعلامة جديدة لنهاية الملف.

ونتيجة لهذا التصميم، قد يحتوي ملف PDF صالح بشكل مشروع على عدة جداول xref، وعدة مقاطع ختامية، وعدة علامات لنهاية الملف. وتتعامل معظم برامج التحليل النحوي الحديثة مع هذه البنية بشكل صحيح. لكن هذه المرونة الهيكلية نفسها تخلق أيضًا فرصة ملحوظة للتلاعب.
تقنية التسلسل
أثناء إجراء أبحاث في مجال الأمن الداخلي، OPSWAT أن ضم ملفين PDF منفصلين تمامًا في ملف واحد ينتج عنه مستند تفسره برامج تحليل مختلفة بطرق متباينة جذريًا. وما بدأ كفضول هيكلي كشف عن تقنية تهرب مهمة وقابلة للتكرار لم تخضع للتدقيق بشكل كافٍ. ويحتوي الملف الناتج على هيكلين مستقلين للمستند، لكل منهما رأسه الخاص، وجدول الإحالات الخارجية، وملحق، وعلامة نهاية الملف.
وهذا يشبه من الناحية النظرية تقنيات استغلال المحللات التي لوحظت بالفعل في ملفات الأرشيف، حيث يُستخدم الغموض الهيكلي لإخفاء المحتوى الضار عن أدوات الأمان. وفي حالة ملفات PDF، تمتد العواقب إلى أبعد من ذلك: فليس فقط أن برامج الفحص الأمني تختلف حول محتوى الملف، بل إن النسخة التي يراها المستخدمون في نهاية المطاف في قارئ ملفات PDF الخاص بهم قد تكون مختلفة تمامًا عن النسخة التي تم فحصها.

نظرًا لأن برامج قراءة ملفات PDF المختلفة تستخدم استراتيجيات تحليل مختلفة، فقد يعرض الملف المُدمج نفسه محتوى مختلفًا تمامًا اعتمادًا على التطبيق الذي يفتحه.
تطبيقات مختلفة، محتوى مختلف
تم إنشاء نموذج أولي باستخدام قسمين من ملف PDF: الأول يوجه برسم مستطيل، والثاني يوجه برسم دائرة.
تقوم برامج قراءة ملفات PDF الشائعة، بما في ذلك Adobe Reader وFoxit Reader وChrome وMicrosoft Edge، بتحديد موقع مؤشر startxref الأخير في الملف، والذي يشير إلى بنية المستند المرفق (الثاني). وتقوم هذه البرامج بعرض تعليمات الدائرة.

يستخدم كل من Microsoft Word وTeams Preview استراتيجية تحليل مختلفة ويحددان بنية المستند الأول. كما يعرضان تعليمات المستطيل، التي لا يمكن للمستخدم رؤيتها في Adobe Reader.

التأثير المقاس على كفاءة الكشف لدى برامج مكافحة الفيروسات
تم التحقق من الآثار الأمنية المترتبة على هذا الغموض الهيكلي من خلال اختبار مباشر باستخدام منصة OPSWAT التي تجمع النتائج من عدة محركات لمكافحة الفيروسات.
الخطوة 1: ملف PDF الأصلي الخاص بالتصيد الاحتيالي
تم إرسال ملف PDF يحتوي على محتوى تصيد احتيالي وروابط إلكترونية ضارة إلى 34 محركًا لمكافحة الفيروسات. وقد تمكنت ثمانية محركات من تحديد المحتوى الضار بشكل صحيح.

الخطوة 2: ملف PDF مدمج مع مستند مضاف في البداية
تمت إضافة ملف PDF فارغ ونظيف في مقدمة ملف PDF الخاص بالتصيد الاحتيالي لإنشاء مستند مدمج. ثم تم إرسال الملف المدمج إلى نفس المحركات الـ34.

انخفضت نسبة الكشف إلى 5 محركات من أصل 34. لم تعد ثلاث محركات مكافحة فيروسات تكتشف هذا التهديد. والتفسير الأرجح هو أن تلك المحركات عالجت فقط بنية المستند الأولى في الملف، والتي احتوت على ملف PDF النظيف، ولم تتعمق في البنية الثانية التي كان المحتوى الخبيث موجودًا فيها.
لكن من وجهة نظر المستخدم، لم يتغير الخطر على الإطلاق. فعندما تم فتح الملف المدمج في برنامج Adobe Reader، ظهرت صفحة التصيد الاحتيالي تمامًا كما أراد المهاجم.

كيف تفسر أنظمة الذكاء الاصطناعي المستندات المجمعة
مع تزايد اندماج معالجة المستندات المدعومة بالذكاء الاصطناعي في سير عمل المؤسسات، يُحدث هذا الغموض الهيكلي فئة متميزة من المخاطر تتجاوز مجرد توزيع البرامج الضارة التقليدية. تعتمد المؤسسات بشكل متزايد على نماذج اللغة الضخمة لتحليل المستندات واستخراج المعلومات ودعم عملية اتخاذ القرار. وإذا فسرت تلك الأنظمة نسخة من المستند تختلف عن تلك التي يراها المستخدم البشري، فإن العواقب تتجاوز بكثير مجرد تجاهل رابط تصيد احتيالي.
أظهرت الاختبارات التي أُجريت على نفس ملف PDF المُدمج أن منصات الذكاء الاصطناعي الرئيسية تفسر الملف وفقًا لنفس المنطق المعتمد على محلل النحو الذي لوحظ في تطبيقات القراءة التقليدية.
GPT: يفسر القسم الأول
قام GPT بتحديد بنية المستند الأول في الملف واستخرج المحتوى من القسم المخفي المضاف في البداية. وقام بقراءة تعليمات المستطيل وتنفيذها، وهي ليست المحتوى المرئي للمستخدم الذي يفتح الملف في برنامج Adobe Reader.

جيميني وكلود: تفسير القسم الثاني (المرئي)
نجح كل من Gemini وClaude في تحليل بنية المستند الثاني واستخراج محتواه بشكل يتوافق مع ما يراه المستخدمون في برنامج Adobe Reader. ورغم أن هذا هو السلوك المتوقع من منظور تجربة المستخدم، إلا أنه يوضح أن أنظمة الذكاء الاصطناعي تخضع لنفس الاختلافات في تحليل البنية التي تواجهها برامج القراءة التقليدية.


لهذا التباين آثار مباشرة على العديد من سيناريوهات المخاطر ذات الأولوية العالية:
- الحقن الفوري: يقوم المهاجم بدمج تعليمات خفية في القسم الأول المخفي من ملف PDF مركب. ويشاهد المستخدم مستندًا عاديًا. ويتلقى نظام الذكاء الاصطناعي الذي يقوم بتحليل البنية الأولى أوامر تتجاوز السلوك المقصود، دون أي مؤشر مرئي للمستخدم أو المراجع.
- تسميم بيانات التدريب: قد تحتوي الوثائق المستخدمة لضبط أو تعزيز نماذج الذكاء الاصطناعي على جزء خفي يُدخل محتوى عدائيًا إلى مجموعة بيانات التدريب دون أن يُكتشف.
- أخطاء الامتثال والتدقيق: قد تعالج أنظمة الذكاء الاصطناعي المستخدمة في مراجعة المستندات أو تحليل العقود أو إعداد التقارير التنظيمية نسخة من مستند تختلف اختلافًا جوهريًا عن النسخة التي راجعها المستشار القانوني أو موظفو الامتثال، مما يؤدي إلى ظهور فجوة خفية في الحوكمة.
بالنسبة للمستشارين القانونيين ومستشاري الشركات ومسؤولي الخصوصية وفرق الامتثال، فإن السيناريو الذي يتصرف فيه نظام الذكاء الاصطناعي بناءً على محتوى لم يراجعه أي شخص ولم تكتشفه أي أداة أمنية ليس مجرد سيناريو نظري. فتقنية التسلسل تجعل تحقيق ذلك أمراً سهلاً للغاية.
كيف OPSWAT هجمات ملفات PDF المتسلسلة
تقنية Deep CDR™: تطهير الملفات الذي يقضي على التهديد قبل ظهوره
تتعامل تقنيةOPSWAT CDR™ مع كل ملف على أنه قد يكون ضارًا. وبدلاً من محاولة الكشف عن أنماط ضارة محددة، تقوم تقنية Deep CDR™ بتفكيك كل ملف، والتحقق من صحة بنيته الداخلية مقارنة بمواصفات التنسيق الرسمية، وإزالة جميع العناصر غير المطابقة أو التي تقع خارج نطاق السياسة المحددة، ثم إعادة إنشاء ملف نظيف وقابل للاستخدام بالكامل. ويستهدف هذا النهج هجمات ملفات PDF المتسلسلة من جذورها الهيكلية.
تمنع تقنية Deep CDR™ هذه التقنية الهجومية بفضل قدرتها على التحقق من بنية الملف. عند معالجة ملف PDF مركب، تكتشف تقنية Deep CDR™ الشذوذ الهيكلي: وجود هياكل مستندات مستقلة متعددة، وجداول xref متعددة، وملحقات متعددة، وعلامات نهاية ملف متعددة في تكوين لا يتوافق مع مستند PDF واحد صالح. ثم تقوم بإزالة العناصر المتعارضة وإعادة بناء المستند من طبقة المحتوى التي تم التحقق من صحتها وأمانها فقط.
ما الذي تزيله تقنية Deep CDR™ بالفعل
MetaDefender لقطة الشاشة التالية منMetaDefender نتيجة تحليل تقنية Deep CDR™ لملف PDF المُجمَّع الخاص بالتصيد الاحتيالي. وبفضل تهيئة تقنية Deep CDR™ وتطبيقها، تمكن النظام من تحديد كل عنصر خالف بنية الملف المتوقعة أو سياسة الأمان، واتخذ الإجراءات اللازمة تجاهه.

كما هو موضح، قامت تقنية Deep CDR™ بالخطوات التالية على ملف PDF المدمج:
- تمت إزالة رابطين: تم حذف روابط التصيد الاحتيالي الضارة المضمنة في المستند قبل وصول الملف إلى المستخدم.
- تم تنقية صورة واحدة: تم تنقية الصورة المضمنة، التي استُخدمت كطُعم بصري في عملية التصيد الاحتيالي.
- تمت إزالة 3 كائنات غير مستخدمة: تم تحديد وإزالة الكائنات اليتيمة من بنية المستند الأول المخفية، والتي لم تعد تنتمي إلى أي طبقة مستند صالحة.
والنتيجة هي ملف PDF سليم من الناحية الهيكلية يحافظ على المحتوى ذي الصلة بالأعمال ويجتاز اختبارات مواصفات تنسيق الملف. والأهم من ذلك، أن ما يتلقاه المستخدم، وما تفحصه محركات مكافحة الفيروسات، وما تعالجه أي أنظمة الذكاء الاصطناعي اللاحقة، كلها متطابقة: وثيقة واحدة تم التحقق منها، خالية من أي بنية خفية أو روابط ضارة أو عناصر مخالفة للسياسة.
وضع التعقيم المرن
في البيئات التي تتطلب الحفاظ على سهولة الاستخدام جنبًا إلى جنب مع الأمان، تعمل تقنية Deep CDR™ في «وضع التطهير المرن». ولا يقوم النظام بحظر الملف، بل يقوم بإعادة بناء هيكله: حيث تتم إزالة الأجزاء المتعارضة من المستند، وإزالة جميع العناصر النشطة والتي يُحتمل أن تكون ضارة، ثم يتم إعادة إنشاء ملف PDF نظيف ومتوافق مع السياسات وتسليمه إلى المستخدم. وبذلك يتم الحفاظ على تجربة المستخدم مع القضاء على نقاط الضعف التي قد تتعرض للهجوم.
تقرير تفاصيل التعقيم
يُنتج كل ملف تتم معالجته بواسطة تقنية Deep CDR™ تقريرًا للتطهير الجنائي يوثق العناصر التي تم تحديدها، والإجراء الذي تم اتخاذه، والأسباب وراء ذلك. وكما هو موضح في الشكل 11، يوفر هذا التقرير سجل تدقيق كامل لكل حالة شذوذ هيكلي وانتهاك للسياسة تمت معالجتها. بالنسبة لمسؤولي الامتثال ومسؤولي الخصوصية والمستشارين القانونيين، يمثل هذا التقرير دليلاً موثقاً على أن الملفات التي دخلت البيئة تمت معالجتها وفقاً لسياسة أمنية متسقة وقابلة للتحقق، وأن أي انحراف عن بنية الملف المتوقعة تم تسجيله ومعالجته.
SandboxAdaptive : تحليل يراعي البنية ولا يترك أي نقاط عمياء
بينما تعمل تقنية Deep CDR™ على الحد من المخاطر من خلال تطهير المستند وإعادة بنائه، OPSWAT Adaptive Sandbox Aether) تتعامل مع المشكلة من زاوية مختلفة جذريًا: فهي تُجري تحليلًا سلوكيًا عميقًا لكل بنية مستند محتملة داخل الملف. ففي حين تعمل تقنية Deep CDR™ على إزالة التهديد قبل وصول الملف إلى المستخدم،Sandbox Adaptive Sandbox الملف في بيئة خاضعة للرقابة ومراقبة ما تم تصميمه للقيام به بالضبط.
في حالة ملفات PDF المربوطة،Sandbox Adaptive Sandbox على تفسير محلل واحد. بدلاً من ذلك، تقوم بإجراء تحليل يراعي البنية لتحديد ما إذا كان الملف يحتوي بالفعل على عدة مستندات PDF صالحة مرفقة معًا. وهذا يمنع المهاجمين بشكل مباشر من إخفاء المحتوى الضار وراء تناقضات المحلل. يتم إجراء التحليل على ثلاث مراحل:
1.الاستخراج: يتم استخراجكل مستند PDF مضمن على حدة من البنية المجمعة. ولا تُعتبر أي طبقة من المستند مرجعاً معتمداً. ويتم تحديد كل قسم موجود في الدفق الثنائي وعزله لفحصه بشكل مستقل.

2.التحليل: يتم تحليلكل مستند مستخرج بشكل مستقل في بيئة محاكاة خاضعة للرقابة.Sandbox Adaptive Sandbox المحتوى، ومراقبة سلوكه أثناء التشغيل، وكشف أي نشاط ضار، بما في ذلك عمليات الاتصال بالشبكة، وتنفيذ البرامج النصية، وإسقاط الحمولات الخبيثة، ومحاولات استغلال تطبيق العرض، بغض النظر عن طبقة المستند التي ينشأ منها هذا السلوك.

الربط: يتم ربط نتائج كل تحليل مستقل بالملف الأصلي، مما ينتج عنه تقييم موحد يعكس النية السلوكية الحقيقية للوثيقة المجمعة بالكامل. ويتم تجميع مؤشرات الاختراق المستخرجة من كل طبقة في تقرير جنائي واحد، مما يدعم معلومات الاستخبارات المتعلقة بالتهديدات، والاستجابة للحوادث، وسير عمل مراكز العمليات الأمنية (SOC).

والنتيجة هي صورة تحليلية كاملة خالية من أي ثغرات. يتم تحليل كل مستند مضمن. ويتم فحص كل سلسلة كائنات. ولا مجال لأي حيل في المحلل النحوي. ولا يمكن للمهاجم الاعتماد على أن يرى أحد التطبيقات طبقة نظيفة بينما تمر طبقة خبيثة دون فحص، لأن Adaptive Sandbox بينهما. فهي تفحص كل شيء.

الكشف متعدد المستويات لحماية شاملة
Sandbox تقنية Deep CDR™ و Adaptive Sandbox تهديدات ملفات PDF المدمجة من اتجاهين متعاكسين، ولا تتركان معًا أي مسار هجوم ممكن. تقوم تقنية Deep CDR™ بإزالة التهديد قبل تسليم الملف: يتلقى المستخدم مستندًا نظيفًا من الناحية الهيكلية، خاليًا من الأقسام المخفية والروابط الضارة والكائنات المخالفة للسياسة.Sandbox Adaptive Sandbox نية التهديد قبل التسليم أو أثناءه: يتم تنفيذ كل طبقة من طبقات المستند، ومراقبة كل سلوك، واستخراج وتسجيل كل مؤشر على الاختراق.
بالنسبة للمؤسسات التي تعمل في بيئات عالية المخاطر، يُعد هذا المزيج فعالاً بشكل خاص. تضمن تقنية Deep CDR™ عدم تمكن المستندات التي تصل إلى المستخدمين من تنفيذ أي منطق خفي.Sandbox Adaptive Sandbox فهم النية السلوكية لكل مستند، بما في ذلك كل طبقة من طبقات الملفات المجمعة. ولا تتطلب أي من التقنيتين معرفة مسبقة بتقنية الهجوم المحددة لتكون فعالة. فكلتاهما تعملان على بنية الملف وسلوك محتواه، وليس على التوقيعات المعروفة أو موجزات معلومات التهديدات.
الأفكار إغلاق
تُظهر تقنية الهجوم عبر ملفات PDF المُجمَّعة فئة من التهديدات لم تُصمم أنظمة الأمان القائمة على الكشف للتعامل معها. فلا توجد بصمة برمجية خبيثة يمكن العثور عليها، ولا يوجد ثغرة أمنية يمكن اكتشافها. بل لا يوجد سوى ترتيب هيكلي لتنسيق ملف شرعي يجعل الأنظمة المختلفة ترى أشياء مختلفة.
بالنسبة لمديري ومديري تكنولوجيا المعلومات، فإن الآثار التشغيلية واضحة: فقد تقوم أدوات المسح الضوئي المستخدمة أدوات بتقييم نسخة مختلفة من المستند عن تلك التي يفتحها المستخدمون.
بالنسبة لمسؤولي الامتثال والمخاطر، فإن هذا يعني وجود ثغرة في الحوكمة: فقد لا يعكس سجل التدقيق الخاص بأمن الملفات المحتوى الفعلي الذي تم تسليمه.
بالنسبة إلى كبار المسؤولين التنفيذيين، فإن المخاطر المالية كبيرة، حيث يتجاوز متوسط تكلفة أي اختراق ناجح عبر التصيد الاحتيالي حالياً 4.88 مليون دولار، وتعد الهجمات التي تتفادى الضوابط القياسية من بين أكثر الهجمات تكلفةً من حيث تكاليف الإصلاح.
بالنسبة للمستشارين القانونيين ومستشاري الشركات ومسؤولي الخصوصية، تمثل أنظمة الذكاء الاصطناعي التي تعمل على محتوى المستندات الخفي دون مراجعة بشرية أو رقابة أمنية خطرًا ناشئًا وجوهريًا.
Sandbox تقنية OPSWAT CDR™ Adaptive Sandbox هذه الثغرة من كلا الاتجاهين. تقضي تقنية Deep CDR™ على الظروف الهيكلية التي تسمح بوجود مثل هذه التهديدات من خلال التحقق من بنية الملف، وإزالة جميع أجزاء المستندات المخفية والمتضاربة، وإعادة إنشاء مخرجات نظيفة ومُثبتة، مما يضمن أن كل ملف يدخل البيئة يحمل بالضبط المحتوى الذي تم فحصه.Sandbox Adaptive Sandbox عدم إغفال أي شيء دون فحص: من خلال إجراء تحليل يراعي البنية عبر كل طبقة من طبقات المستندات المضمنة، وتنفيذ كل منها بشكل مستقل، وربط النتائج بالملف الأصلي، فإنه يكشف عن النية السلوكية للتهديدات التي لا يمكن لأي حيلة محللة أن تخفيها. تعمل هاتان التقنيتان معًا على ضمان أن ما يتلقاه المستخدمون آمن، وأن الغرض الذي صمم المهاجمون الملف من أجله مفهوم تمامًا.
موارد إضافية
- اطلع على مجموعة منتجاتOPSWAT
- تنزيل ورقة البيانات: تقنية Deep CDR™ و Adaptive Sandbox
