
تحذر منظمة أنثروبيك من أن إدراج بيانات ضارة لتشويه استجابات الذكاء الاصطناعي أسهل بكثير مما يتصور البعض - صورة: FREEPIK
نشرت شركة الذكاء الاصطناعي Anthropic، مطورة برنامج المحادثة الآلي Claude، بحثًا مؤخرًا يظهر أن "تسميم" نماذج اللغة الكبيرة (LLMs)، أي إدراج بيانات ضارة لتشويه استجابات الذكاء الاصطناعي، أسهل بكثير مما يتصور البعض.
وفقًا لـ Cyber News، فإن 250 مستندًا تم إعدادها خصيصًا تكفي لجعل نموذج الذكاء الاصطناعي التوليدي (GenAI) يقدم إجابات غير صحيحة تمامًا عند مواجهة عبارة محفزة معينة.
من المثير للقلق أن حجم النموذج لا يقلل من هذا الخطر. سابقًا، كان الباحثون يعتقدون أنه كلما كبر النموذج، زادت الحاجة إلى بيانات خبيثة لتثبيت "باب خلفي".
لكن أنثروبيك تدعي أن نموذج الـ 13 مليار معلمة - المدرب على أكثر من 20 ضعفًا من البيانات - ونموذج الـ 600 مليون معلمة يمكن اختراقهما بنفس العدد الصغير من المستندات "المسمومة".
أكدت أنثروبيك أن "هذه النتيجة تتحدى افتراض ضرورة سيطرة المهاجم على نسبة معينة من بيانات التدريب. في الواقع، قد لا يحتاج سوى إلى كمية ثابتة صغيرة جدًا".
وحذرت الشركة من أن هذه الثغرات قد تشكل مخاطر جدية على أمن أنظمة الذكاء الاصطناعي وتهدد تطبيق التكنولوجيا في المناطق الحساسة.
المصدر: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
تعليق (0)