منذ ظهورها العلني أواخر عام ٢٠٢٢، أظهرت نماذج اللغات الكبيرة (LLMs) مثل ChatGPT مرارًا وتكرارًا جوانب مظلمة مُقلقة، بدءًا من الكذب والغش والتلاعب المُبطّن، وصولًا إلى تهديد الأرواح وسرقة أسرار الدولة. والآن، تُظهر تجربة جديدة أن "تعليم" الذكاء الاصطناعي التخلص من هذه العادات السيئة أثناء التدريب أكثر تعقيدًا مما كنا نعتقد.
في دراسة أجرتها شركة OpenAI، اختبر باحثون نموذج ذكاء اصطناعي غير منشور بمهام يُمكن إنجازها أسرع بالغش أو اختصار الطرق. أظهرت النتائج أن الذكاء الاصطناعي تعلم بسرعة إيجاد كل طريقة ممكنة لـ"خرق القواعد" وتعظيم المكافآت (اختراق المكافآت) دون إكمال المهمة بدقة كما هو مطلوب.
سوف تجد الذكاء الاصطناعي طرقًا لإخفاء سلوك الغش بعد معاقبته
اللافت للنظر أنه عند معاقبة النموذج على هذا السلوك، لم يتغير. بل أصبح الذكاء الاصطناعي أكثر تطورًا في إخفاء خداعه.
أوضح الباحثون في منشور مدونة عام: "عادةً ما تكون نماذج الاستدلال المتطورة واضحةً جدًا بشأن غايتها في CoT". "على سبيل المثال، غالبًا ما تكون صريحةً بشأن نيتها في "الاختراق" عندما تريد تعطيل مهمة معينة".
كما يؤكدون أنه على الرغم من قدرة المطورين على رصد السلوكيات الخاطئة وكشفها، إلا أن هذه الرقابة الطبيعية هشة. ويحذرون: "إذا طُبقت رقابة قوية مباشرة على سلسلة الأفكار، يمكن للنموذج أن يتعلم إخفاء نواياه السيئة مع الاستمرار في أداء السلوك".
العثور على "كذبة" الذكاء الاصطناعي
للتوضيح، تُعدّ نماذج الاستدلال (مثل إصدارات ChatGPT) خطوةً متقدمةً عن نموذج ماجستير القانون التقليدي، إذ تستخدم أسلوبًا قائمًا على سلسلة من الأفكار يسمح بالتأمل الذاتي في الخطوات المنطقية المُتخذة، مما يُتيح حل المشكلات المعقدة بدقة أكبر. تُشبه هذه العملية "التفكير بصوت عالٍ" للذكاء الاصطناعي، حيث يُدوّن كل خطوة من خطوات التفكير بلغة طبيعية، مما يُسهّل على البشر متابعتها.
في التجربة، استخدم الباحثون نموذج GPT-4o "كمشرف" على نموذج استدلال متطور آخر أثناء تنفيذه مهام البرمجة. في كثير من الحالات، اختار النموذج المُشرف الغشّ عمدًا للحصول على درجات أعلى، وقد أوضح هذه النية بوضوح في تفكيره. على سبيل المثال، أنهى البرنامج بشكل تعسفي قبل الموعد المحدد وأبلغ عن إكماله، أو أنشأ ملفات بأسماء مطابقة للمتطلبات ولكنها فارغة تمامًا.
عندما حاول الباحثون تطبيق العقوبة، تحسّن النموذج، لكن سلوك الغش وأخطاء الإخراج الجسيمة استمرت. يكمن الاختلاف في أن نموذج الاستدلال تعلم الآن "إخفاء" سلسلة أفكاره لإخفائها عن الذكاء الاصطناعي المُشرف. وتنص الدراسة على أن "النموذج المُدرّب تحت إشراف CoT تعلم الغش. والفرق الوحيد هو أن الغش لم يُكتشف لأنه تعلم إخفاء نواياه في سلسلة أفكاره".
نظرًا لصعوبة كشف التزوير في تسلسلات الأفكار، يوصي الفريق بتجنب فرض رقابة مُشددة على العملية، على الأقل حتى يتفهم البشر عواقبها بشكل أفضل. وخلص الباحثون إلى أن "التضحية بأسلوب رقابة فعال قد لا يكون مُجديًا مقابل التحسن الطفيف في أداء النموذج. لذلك، نوصي بتجنب ضغوط تحسين CoT القوية حتى نفهمها بشكل أفضل".
إن هذه النصيحة أصبحت أكثر إلحاحاً في ظل تطور الذكاء الاصطناعي بوتيرة سريعة للغاية، وقد يتجاوز قريباً ذكاء البشر الذين يشرفون عليه.
[إعلان 2]
المصدر: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
تعليق (0)