تتنافس أربعة من أفضل نماذج الذكاء الاصطناعي للعثور على التطبيق الأكثر ثقة في الإجابة بشكل خاطئ

[إعلان 1]

قام الباحثون في Arthur AI، وهي منصة مراقبة التعلم الآلي، باختبار نماذج رائدة في الصناعة ووجدوا أن GPT-4 كان الأفضل في الرياضيات، وكان Llama 2 متوسطًا في جميع المجالات، وكان Claude 2 من Anthropic "يعرف" حدوده بشكل أفضل، وحصل Cohere AI على لقب النموذج الأكثر "وهمًا" مع الإجابات الخاطئة الأكثر ثقة.

ويأتي تقرير شركة Arthur AI في الوقت الذي أصبحت فيه المعلومات المضللة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي قضية ساخنة مع اقتراب موعد الانتخابات الرئاسية الأمريكية لعام 2024.

تتزايد قضية المعلومات المضللة التي تنتجها الذكاء الاصطناعي مع اقتراب موعد الانتخابات الرئاسية الأمريكية لعام 2024.

وفقًا لآدم وينشيل، المؤسس المشارك والرئيس التنفيذي لشركة آرثر، فإن هذا هو أول تقرير "يلقي نظرة شاملة على معدلات الهلوسة في نماذج اللغة الكبيرة (LLMs) بدلاً من مجرد نشر التصنيفات".

يشير وهم الذكاء الاصطناعي إلى ظاهرة قيام خبراء القانون بتزوير المعلومات كليًا والتظاهر بصدقها. على سبيل المثال، في يونيو 2023، أُفيد بأن ChatGPT استخرج معلومات "زائفة" من ملف مُقدّم إلى محكمة فيدرالية في نيويورك، وقد يواجه المحامون المتورطون عقوبات شديدة.

في التجربة، سمح باحثو الذكاء الاصطناعي في معهد آرثر للذكاء الاصطناعي لنماذج الذكاء الاصطناعي بالتنافس في فئات مثل الرياضيات التوافقية، ومعرفة رؤساء الولايات المتحدة، والقادة السياسيين المغاربة، وما إلى ذلك، من خلال أسئلة "مصممة" لكشف أخطاء الذكاء الاصطناعي، وهو ما "يتطلب من النماذج شرح خطوات التفكير حول المعلومات المقدمة".

أظهرت النتائج أن نموذج GPT-4 من OpenAI حقق أفضل أداء إجمالي بين النماذج المختبرة. كما أظهر عددًا أقل من الأوهام مقارنةً بسابقه GPT-3.5. على سبيل المثال، في أسئلة الرياضيات، أظهر GPT-4 عددًا أقل من الأوهام بنسبة 33% إلى 50%.

من ناحية أخرى، فإن لعبة Llama 2 من Meta هي في العموم أكثر تأثيراً على العقل من لعبتي GPT-4 وClaude 2 من Anthropic.

في فئة الرياضيات، حلّ GPT-4 في المركز الأول، يليه كلود 2 بفارق ضئيل. أما في اختبارات رؤساء الولايات المتحدة، فقد حصد كلود 2 المركز الأول من حيث الدقة، متقدمًا على GPT-4 في المركز الثاني. وعند سؤاله عن السياسة المغربية، حلّ GPT-4 في المركز الأول مجددًا، بينما اختار كلود 2 ولاما 2 عدم الإجابة بشكل شبه كامل.

وفي تجربة ثانية، اختبر الباحثون مدى "تجنب" نماذج الذكاء الاصطناعي للمخاطرة (مقدمين رسالة مفادها "كنموذج ذكاء اصطناعي، لا أستطيع إعطاء رأي").

في هذا الاختبار، أظهر GPT-4 زيادة بنسبة 50% في الشعور بالانزعاج مقارنةً بـ GPT-3.5، وهو ما تم قياسه أيضًا من خلال "إبلاغ مستخدمي GPT-4 بأن الإصدار الجديد كان أكثر إزعاجًا". من ناحية أخرى، لم يُظهر نموذج الذكاء الاصطناعي الخاص بشركة Cohere أي شعور بالانزعاج على الإطلاق. وجدت الدراسة أن Claude 2 كان الأكثر موثوقية من حيث "الوعي الذاتي"، أي أنه قيّم بدقة ما يعرفه وما لا يعرفه، ولم يُجب إلا على الأسئلة التي تدعمها بيانات التدريب.

رفض ممثل شركة Cohere النتائج، بحجة أن "تكنولوجيا التتبع المحسنة التي طورتها الشركة، والتي لم يتم دمجها في النموذج الذي تم اختباره، فعالة للغاية في اقتباس معلومات يمكن التحقق منها للتحقق من المصدر" للشركة.

(وفقا لشبكة CNBC)

[إعلان 2]
مصدر