يتميز نموذجا ChatGPT الجديدان بمعدل أعلى في تلفيق المعلومات مقارنةً بالجيل السابق. الصورة: Fireflies . |
بعد يومين فقط من الإعلان عن GPT-4.1، أصدرت OpenAI رسميًا نموذجين جديدين، هما o3 وo4-mini. يتميز كلا النموذجين بقدرات استدلالية فائقة مع العديد من التحسينات القوية.
ومع ذلك، وفقًا لموقع TechCrunch ، لا يزال هذان النموذجان الجديدان يعانيان من "الوهم" أو تلفيق المعلومات. في الواقع، يعانيان من "الوهم" أكثر من بعض نماذج OpenAI القديمة.
وفقًا لشركة IBM، فإن الهلوسة تحدث عندما يتلقى نموذج لغوي كبير (LLM) - عادةً برنامج محادثة أو أداة رؤية كمبيوترية - أنماط بيانات غير موجودة أو غير قابلة للتعرف عليها من قبل البشر، مما يؤدي إلى نتائج لا معنى لها أو مضللة.
بمعنى آخر، غالبًا ما يطلب المستخدمون من الذكاء الاصطناعي تقديم نتائج دقيقة بناءً على بيانات التدريب. ومع ذلك، في بعض الحالات، لا تستند نتائج الذكاء الاصطناعي إلى بيانات دقيقة، مما يُنتج استجابات "وهمية".
وفي أحدث تقرير لها، وجدت شركة OpenAI أن شركة o3 "أصابها الهلوسة" عند الإجابة على 33% من الأسئلة في PersonQA، وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالبشر.
للمقارنة، يُمثل هذا ضعف معدل "الهلوسة" في نموذجي الاستدلال السابقين من OpenAI، o1 وo3-mini، واللذين عانيا من 16% و14.8% من الوقت على التوالي. في الوقت نفسه، كان أداء نموذج O4-mini أسوأ على PersonQA، حيث عانى من "الهلوسة" بنسبة 48% من الوقت.
الأمر الأكثر إثارة للقلق هو أن "مبتكر ChatGPT" لا يعرف سبب حدوث ذلك. وتحديدًا، في التقرير الفني عن o3 وo4-mini، كتبت OpenAI أن "هناك حاجة إلى مزيد من البحث لفهم سبب تفاقم هذا "الوهم" مع توسع نماذج الاستدلال.
كان أداء o3 وo4-mini أفضل في بعض المجالات، بما في ذلك مهام البرمجة والرياضيات. ومع ذلك، نظرًا لحاجتهما إلى "إصدار بيانات أكثر من التعميم"، عانى كلا النموذجين من إنتاج "بيانات أكثر صحة، ولكن أيضًا بيانات أكثر خطأً".
المصدر: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html
تعليق (0)