بعد يوم واحد فقط من طرح OpenAI لـ GPT-5، قامت شركتان متخصصتان في أمن الذكاء الاصطناعي، NeuralTrust وSPLX (المعروفة سابقًا باسم SplxAI)، باختبار النموذج الذي تم إصداره حديثًا واكتشفتا بسرعة نقاط ضعف خطيرة فيه.
بعد وقت قصير من إصداره، استخدم فريق NeuralTrust تقنية كسر الحماية المسماة EchoChamber جنبًا إلى جنب مع تقنية سرد القصص لجعل GPT-5 يولد تعليمات مفصلة لبناء قنبلة مولوتوف - وهو الأمر الذي حاول فريق OpenAI دائمًا منع النموذج من الإجابة عليه لضمان سلامة روبوت المحادثة.

إيكو تشامبر هي تقنيةٌ لتكرار المحادثات من طرفٍ ثالث، تُمكّن الذكاء الاصطناعي من "سرد" تعليماتٍ خطيرةٍ دون قصد. الصورة: موجولوجيك
وقال الفريق إنه أثناء عملية كسر الحماية لإغراء ChatGPT-5 بالشتائم، لم يطرحوا أي أسئلة مباشرة، بل زرعوا بدلاً من ذلك عناصر مخفية بذكاء في المحادثة على مدار عدة أدوار، مما تسبب في توجيه النموذج، والالتزام بخط القصة، وفي النهاية تقديم محتوى طواعية ينتهك مبادئه دون أن يتمكنوا من تشغيل آلية إلغاء الاشتراك.
وخلص الفريق إلى أن العيب الرئيسي في GPT-5 هو أنه يعطي الأولوية للحفاظ على اتساق سياق المحادثة، حتى لو تم توجيه هذا السياق بصمت نحو أهداف خبيثة.
في هذه الأثناء، شنّ SPLX هجومًا مختلفًا، مُركّزًا على تقنية تشويش الرسائل النصية تُسمى هجوم تشويش StringJoin. وبإدراج واصلات بين كل حرف من الرسالة النصية وتغطية النص بأكمله بنص فك تشفير، نجحوا أخيرًا في خداع نظام تصفية المحتوى.

إن تقنية التعتيم الشائعة المستخدمة لإخفاء هدف الكود المصدر تجعل Chat-GPT ينفذ "ببراءة".
في أحد الأمثلة، بعد أن خضع النموذج لسلسلة طويلة من التعليمات، عُرض سؤال "كيفية صنع قنبلة" بصيغة مُرمَّزة. لم يُجب GPT-5 على هذا السؤال الخبيث بمعلومات مفيدة فحسب، بل استجاب أيضًا بأسلوب ذكي وودود، متجاوزًا تمامًا آلية الرفض التي صُمِّم من أجلها.
تُظهر الطريقتان أن أنظمة الإشراف الحالية في GPT-5، والتي تُركز بشكل أساسي على المطالبات الفردية، عُرضة لهجمات الحوار المتعدد المُحسّنة سياقيًا. بمجرد أن يتعمق النموذج في قصة أو سيناريو افتراضي، يُصبح مُتحيزًا ويستمر في نشر محتوى يتناسب مع السياق المُحاصر، بغض النظر عمّا إذا كان المحتوى خطيرًا أو محظورًا.

لا يزال من الممكن استغلال ChatGPT-5 لإنشاء أشياء خطيرة. الصورة: تو مينه
بناءً على هذه النتائج، تعتقد SPLX أن استخدام GPT-5 بأمان في بيئة الشركات، إن لم يُخصَّص، سيكون شبه مستحيل، وحتى مع طبقات حماية إضافية، سيظل به العديد من الثغرات. في المقابل، لا يزال GPT-4o أكثر مرونة في مواجهة مثل هذه الهجمات، خاصةً عند استخدام آلية دفاعية محكمة.
حذّر الخبراء من أن تطبيق GPT-5 فورًا، وخاصةً في المناطق التي تتطلب حمايةً أمنيةً عالية، أمرٌ بالغ الخطورة. فتقنيات الحماية، مثل التحصين الفوري، لا تحل سوى جزءٍ من المشكلة، ولا يمكنها أن تحل محل حلول المراقبة والدفاع متعددة الطبقات في الوقت الفعلي.
يمكن ملاحظة أنه في الوقت الحالي، أصبحت تقنيات الهجوم القائمة على السياق وتعتيم المحتوى متطورة بشكل متزايد، وعلى الرغم من قوة GPT-5 في قدرات معالجة اللغة، إلا أنه لا يزال لا يصل إلى مستوى الأمان المطلوب للنشر على نطاق واسع دون آليات حماية إضافية.
المصدر: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
تعليق (0)