Vietnam.vn - Nền tảng quảng bá Việt Nam

تم اختراق ChatGPT-5 لإعطاء تعليمات خطيرة

نظرًا لأن ChatGPT-5 يتحدث مثل الإنسان، فمن السهل على المتسللين "خداعه" بنفس الأساليب المستخدمة لخداع البشر، مما يجعله يعطي تعليمات ببراءة حول كيفية صنع قنبلة.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

بعد يوم واحد فقط من طرح OpenAI لـ GPT-5، قامت شركتان متخصصتان في أمن الذكاء الاصطناعي، NeuralTrust وSPLX (المعروفة سابقًا باسم SplxAI)، باختبار النموذج الذي تم إصداره حديثًا واكتشفتا بسرعة نقاط ضعف خطيرة فيه.

بعد وقت قصير من إصداره، استخدم فريق NeuralTrust تقنية كسر الحماية المسماة EchoChamber جنبًا إلى جنب مع تقنية سرد القصص لجعل GPT-5 يولد تعليمات مفصلة لبناء قنبلة مولوتوف - وهو الأمر الذي حاول فريق OpenAI دائمًا منع النموذج من الإجابة عليه لضمان سلامة روبوت المحادثة.



إيكو تشامبر هي تقنيةٌ لتكرار المحادثات من طرفٍ ثالث، تُمكّن الذكاء الاصطناعي من "سرد" تعليماتٍ خطيرةٍ دون قصد. الصورة: موجولوجيك

وقال الفريق إنه أثناء عملية كسر الحماية لإغراء ChatGPT-5 بالشتائم، لم يطرحوا أي أسئلة مباشرة، بل زرعوا بدلاً من ذلك عناصر مخفية بذكاء في المحادثة على مدار عدة أدوار، مما تسبب في توجيه النموذج، والالتزام بخط القصة، وفي النهاية تقديم محتوى طواعية ينتهك مبادئه دون أن يتمكنوا من تشغيل آلية إلغاء الاشتراك.

وخلص الفريق إلى أن العيب الرئيسي في GPT-5 هو أنه يعطي الأولوية للحفاظ على اتساق سياق المحادثة، حتى لو تم توجيه هذا السياق بصمت نحو أهداف خبيثة.

في هذه الأثناء، شنّ SPLX هجومًا مختلفًا، مُركّزًا على تقنية تشويش الرسائل النصية تُسمى هجوم تشويش StringJoin. وبإدراج واصلات بين كل حرف من الرسالة النصية وتغطية النص بأكمله بنص فك تشفير، نجحوا أخيرًا في خداع نظام تصفية المحتوى.

إن تقنية التعتيم الشائعة المستخدمة لإخفاء هدف الكود المصدر تجعل Chat-GPT ينفذ "ببراءة".

في أحد الأمثلة، بعد أن خضع النموذج لسلسلة طويلة من التعليمات، عُرض سؤال "كيفية صنع قنبلة" بصيغة مُرمَّزة. لم يُجب GPT-5 على هذا السؤال الخبيث بمعلومات مفيدة فحسب، بل استجاب أيضًا بأسلوب ذكي وودود، متجاوزًا تمامًا آلية الرفض التي صُمِّم من أجلها.

تُظهر الطريقتان أن أنظمة الإشراف الحالية في GPT-5، والتي تُركز بشكل أساسي على المطالبات الفردية، عُرضة لهجمات الحوار المتعدد المُحسّنة سياقيًا. بمجرد أن يتعمق النموذج في قصة أو سيناريو افتراضي، يُصبح مُتحيزًا ويستمر في نشر محتوى يتناسب مع السياق المُحاصر، بغض النظر عمّا إذا كان المحتوى خطيرًا أو محظورًا.

لا يزال من الممكن استغلال ChatGPT-5 لإنشاء أشياء خطيرة. الصورة: تو مينه

بناءً على هذه النتائج، تعتقد SPLX أن استخدام GPT-5 بأمان في بيئة الشركات، إن لم يُخصَّص، سيكون شبه مستحيل، وحتى مع طبقات حماية إضافية، سيظل به العديد من الثغرات. في المقابل، لا يزال GPT-4o أكثر مرونة في مواجهة مثل هذه الهجمات، خاصةً عند استخدام آلية دفاعية محكمة.

حذّر الخبراء من أن تطبيق GPT-5 فورًا، وخاصةً في المناطق التي تتطلب حمايةً أمنيةً عالية، أمرٌ بالغ الخطورة. فتقنيات الحماية، مثل التحصين الفوري، لا تحل سوى جزءٍ من المشكلة، ولا يمكنها أن تحل محل حلول المراقبة والدفاع متعددة الطبقات في الوقت الفعلي.

يمكن ملاحظة أنه في الوقت الحالي، أصبحت تقنيات الهجوم القائمة على السياق وتعتيم المحتوى متطورة بشكل متزايد، وعلى الرغم من قوة GPT-5 في قدرات معالجة اللغة، إلا أنه لا يزال لا يصل إلى مستوى الأمان المطلوب للنشر على نطاق واسع دون آليات حماية إضافية.

يقوم ChatGPT-5 بإصدار التعليمات وإنشاء أدوات القرصنة بحرية عندما "يتم الطلب منه بشكل صحيح".

المصدر: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


تعليق (0)

No data
No data
في اللحظة التي تقطع فيها طائرة SU-30MK2 الريح، يتجمع الهواء على الجزء الخلفي من الأجنحة مثل السحب البيضاء
"فيتنام - تتقدم بفخر نحو المستقبل" ينشر الفخر الوطني
الشباب يبحثون عن مشابك الشعر وملصقات النجوم الذهبية بمناسبة العيد الوطني
شاهد أحدث دبابة في العالم، وهي طائرة بدون طيار انتحارية في مجمع تدريب العرض العسكري
اتجاه صناعة الكعك المطبوع عليه علم أحمر ونجمة صفراء
تمتلئ شوارع هانغ ما بالقمصان والأعلام الوطنية للترحيب بالعيد المهم
اكتشف موقع تسجيل وصول جديد: الجدار "الوطني"
شاهد تشكيل طائرة متعددة الأدوار من طراز ياك-130 "قم بتشغيل دفعة الطاقة، وقم بالدور القتالي"
من A50 إلى A80 - عندما تصبح الوطنية هي الاتجاه
'الوردة الفولاذية' A80: من خطوات الفولاذ إلى الحياة اليومية الرائعة

إرث

شكل

عمل

No videos available

أخبار

النظام السياسي

محلي

منتج