جرعات صغيرة من البيانات ‘المسمومة’ تهدد نماذج الذكاء الاصطناعي الكبيرة

أصدرت شركة “أنتروبيك” بالتعاون مع “معهد أمن الذكاء الاصطناعي” في المملكة المتحدة و”معهد آلان تورينغ” دراسة تظهر أن هجمات “تسميم البيانات” (data poisoning) قادرة على زرع “باب خلفي” في نماذج لغوية كبيرة باستخدام عدد صغير وثابت نسبيًا من الوثائق الخبيثة، وأن هذا العدد قد يكون كافيًا بغض النظر عن حجم النموذج أو بيانات التدريب.
وتركزت التجربة على هجوم خلفي محدود الهدف يُطلق عليه الباحثون هجوم “إنكار الخدمة” (denial-of-service backdoor)، إذ يربط المهاجم كلمة تشغيل محددة —في التجربة استُخدم الحرفي/العبارة <SUDO>— بإخراج نص عشوائي وغير مفهوم من النموذج عند ظهوره في المدخلات. طُبّق هذا النوع من الاختبارات لأن نتيجته قابلة للقياس المباشر على نقاط تفتيش النماذج قبل أي ضبط لاحق.
في المنهج التجريبي، درّب الباحثون نماذج بأحجام مختلفة (600 مليون، 2 مليار، 7 مليار و13 مليار معامل) على كميات بيانات مناسبة لكل حجم وفق معيار Chinchilla. ثم ضمنوا في بيانات التدريب مجموعات من الوثائق المسمومة بعدة أعداد: 100، 250، و500 وثيقة، وكرّروا التجارب بعدة بذور عشوائية للحصول على نتائج مستقرة.
عند تقييم نجاح الهجوم استخدم الفريق مقياس “perplexity” لقياس درجة العشوائية في المخرجات بعد ظهور كلمة التشغيل مقارنة بالمخرجات الطبيعية.
النتائج الأساسية التي تبرزها الدراسة هي أن نجاح الهجوم يعتمد على العدد المطلق للوثائق المسمومة وليس على نسبتها من مجمل بيانات التدريب.
وجد الباحثون أن حوالي 250 وثيقة ملوثة كانت كافية لزرع باب خلفي فعال في النماذج التي اختبروها، بدءًا من نماذج 600 مليون معامل ووصولًا إلى 13 مليار معامل، رغم أن النماذج الأكبر تعالج كمية أكبر بكثير من بيانات التدريب “النظيفة”.
حوالي 250 وثيقة ملوثة كانت كافية لزرع باب خلفي
وقد مثلت 250 وثيقة نحو 420 ألف توكن، أي حوالي 0.00016% من إجمالي التوكنات في أحد إعداداتهم.
تثير هذه النتائج أسئلة أمنية مهمة: اعتماد المهاجم على عدد ثابت وصغير من العينات يعني أن تنفيذ هجمات التسميم قد يكون أكثر سهولة وواقعية مما كان يُعتقد سابقًا، خصوصًا لأن إنشاء 250 صفحة أو وثيقة خبيثة على الإنترنت ليس عملًا صعبًا.
بيد أن الباحثين يحذرون من حدود الدراسة؛ فقد اختبروا سلوكًا محدودًا نسبيًا (نص عشوائي كرد فعل) ولا يزال من غير الواضح إذا ما كانت هذه الديناميات ستستمر عند محاولة برمجة سلوكيات أكثر ضررًا، مثل إدخال ثغرات في كود أو تحيّل لآليات الحماية.
من منظور الدفاع، أكد البحث أن الكشف والوقاية يجب أن يُصمَّما على افتراض أن عددًا صغيرًا ثابتًا من العينات المسمومة قد يكفي لخرق النموذج. تقترح الدراسة أن استراتيجيات الحماية تحتاج إلى أن تكون فعّالة حتى عندما يُدخل المهاجمون كميات صغيرة من المحتوى الخبيث قبل تجميع مجموعة بيانات التدريب، كما تبين أن المهاجمين لا يزالون يواجهون قيودًا عملية أخرى مثل ضمان أن صفحاتهم أو مصادرهم ستُضمَّن بالفعل في بيانات التدريب المستخدمة من قبل المطورين.
تختم “أنتروبيك” بأن نشر هذه النتائج يحمل مخاطر تشجيع من لديهم نوايا سيئة على محاولة تنفيذ هذه الهجمات، لكنها ترى أن فوائد نشر النتائج تفوق هذه المخاطر لأنها تسهم في تسليط الضوء على ثغرة عملية وتحفز تطوير أبحاث ودفاعات أفضل. كما توصي الدراسة بالبحث المتواصل لمعرفة ما إذا كانت هذه الظاهرة ستستمر مع نماذج أكبر أو مع هجمات أكثر تعقيدًا، وبالعمل على أدوات فحص ومراجعة بيانات التدريب على نطاق واسع.
تشير هذه الدراسة إلى أن أمان نماذج الذكاء الاصطناعي ليس مسألة عدد البيانات أو حجم النموذج فقط، بل يرتبط أيضًا بكيفية إدارة محتوى التدريب وفحصه بدقة. في ظل توسع استخدام هذه النماذج في الخدمات الحيوية والصناعات المختلفة، تصبح الحاجة إلى تطوير آليات مراقبة قوية واستراتيجيات دفاعية شاملة أكثر إلحاحًا.
كما تفتح النتائج الباب أمام مزيد من البحث حول تأثير كميات صغيرة من البيانات الضارة على الأداء العام للنماذج، ما يحث مطوري الذكاء الاصطناعي على اعتماد نهج أمني متكامل يوازن بين الابتكار وحماية المعلومات والمستخدمين.
ميدل إيست أون لاين