قام الباحثون في Arthur AI، وهي منصة مراقبة التعلم الآلي، باختبار نماذج رائدة في الصناعة ووجدوا أن GPT-4 كان الأفضل في الرياضيات، وكان Llama 2 متوسطًا في جميع المجالات، وكان Claude 2 من Anthropic "يعرف" حدوده بشكل أفضل، وحصل Cohere AI على لقب النموذج الأكثر "وهمًا" مع الإجابات الخاطئة الأكثر ثقة.
ويأتي تقرير شركة Arthur AI في الوقت الذي أصبحت فيه المعلومات المضللة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي قضية ساخنة مع اقتراب موعد الانتخابات الرئاسية الأمريكية لعام 2024.
وفقًا لآدم وينشيل، المؤسس المشارك والرئيس التنفيذي لشركة آرثر، فإن هذا هو أول تقرير "يلقي نظرة شاملة على معدلات الهلوسة في نماذج اللغة الكبيرة (LLMs) بدلاً من مجرد نشر التصنيفات".
يشير وهم الذكاء الاصطناعي إلى الظاهرة التي يقوم فيها طلاب الماجستير في القانون بتلفيق المعلومات بالكامل والتصرف كما لو كانوا يقولون الحقيقة. على سبيل المثال، في يونيو 2023، أفيد أن ChatGPT استشهد بمعلومات "خاطئة" في ملف لدى محكمة فيدرالية في نيويورك وأن المحامين المعنيين قد يواجهون عقوبات شديدة.
في التجربة، سمح باحثو الذكاء الاصطناعي في معهد آرثر للذكاء الاصطناعي لنماذج الذكاء الاصطناعي بالتنافس في فئات مثل الرياضيات التوافقية، ومعرفة رؤساء الولايات المتحدة، والقادة السياسيين المغاربة، وما إلى ذلك، من خلال أسئلة "مصممة" لكشف أخطاء الذكاء الاصطناعي، وهو ما "يتطلب من النماذج شرح خطوات التفكير حول المعلومات المقدمة".
تظهر النتائج أن GPT-4 من OpenAI يحقق عمومًا أفضل أداء بين النماذج التي تم اختبارها. كما أنه يتمتع بوهم أقل من سابقه GPT-3.5. على سبيل المثال، في أسئلة الرياضيات، كان GPT-4 أقل أوهامًا بنسبة 33% إلى 50%.
من ناحية أخرى، فإن لعبة Llama 2 من Meta هي في العموم أكثر تأثيراً على العقل من لعبتي GPT-4 وClaude 2 من Anthropic.
وفي فئة الرياضيات، جاء GPT-4 في المركز الأول، يليه Claude 2 بفارق ضئيل، ولكن في اختبارات رؤساء الولايات المتحدة، احتل Claude 2 المركز الأول في الدقة، متغلبًا على GPT-4 الذي جاء في المركز الثاني. عندما سئل عن السياسة المغربية، جاء GPT-4 مرة أخرى في المقدمة، بينما اختار كلود 2 ولاما 2 عدم الإجابة بشكل كامل تقريبًا.
وفي تجربة ثانية، اختبر الباحثون مدى "تجنب" نماذج الذكاء الاصطناعي للمخاطرة (مقدمين رسالة مفادها "كنموذج ذكاء اصطناعي، لا أستطيع إعطاء رأي").
بفضل هذا الاختبار، حصل GPT-4 على زيادة نسبية في الحماية بنسبة 50% مقارنةً بـ GPT-3.5، وهو ما تم "قياسه أيضًا من خلال تصريحات مستخدمي GPT-4 بأن الإصدار الجديد أكثر إزعاجًا". من ناحية أخرى، لا يقوم نموذج الذكاء الاصطناعي الخاص بشركة Cohere بأي تحرك على الإطلاق لمنع أي رد فعل. توصلت الدراسة إلى أن Claude 2 كان الأكثر موثوقية من حيث "الوعي الذاتي"، مما يعني تقييم دقيق لما يعرفه وما لا يعرفه، والإجابة فقط على الأسئلة التي لديه بيانات تدريب تدعمها.
رفض ممثل شركة Cohere النتائج، بحجة أن "تكنولوجيا التتبع المحسنة التي تستخدمها الشركة، والتي لم يتم دمجها في النموذج الذي تم اختباره، فعالة للغاية في اقتباس معلومات يمكن التحقق منها للتحقق من المصدر" للشركة.
(وفقا لشبكة CNBC)
[إعلان 2]
مصدر
تعليق (0)