
في شهر أبريل، أبلغ روبوت الذكاء الاصطناعي الذي يتولى الدعم الفني لـ Cursor، وهي أداة ناشئة للمبرمجين، بعض العملاء بتغيير في سياسة الشركة. على وجه التحديد، ينص الإشعار على أنه لم يعد مسموحًا لهم باستخدام Cursor على أكثر من جهاز كمبيوتر واحد.
وفي المنتديات ووسائل التواصل الاجتماعي، نشر العملاء غضبهم. حتى أن البعض قاموا بإلغاء حسابات Cursor الخاصة بهم. لكن البعض شعر بغضب أكبر عندما أدركوا ما حدث: فقد أعلن روبوت الذكاء الاصطناعي عن تغيير في السياسة لم يكن موجودًا.
كتب مايكل ترول، الرئيس التنفيذي والمؤسس المشارك للشركة، في منشور على ريديت: "ليس لدينا هذه السياسة. يمكنك بالطبع استخدام Cursor على أجهزة متعددة. للأسف، كان هذا ردًا غير صحيح من روبوت يعمل بالذكاء الاصطناعي".
المعلومات المزيفة أصبحت خارجة عن السيطرة.
بعد مرور أكثر من عامين على إطلاق ChatGPT، تستخدم شركات التكنولوجيا والعاملون في المكاتب والمستهلكون اليوميون روبوتات الذكاء الاصطناعي لمجموعة واسعة من المهام بتردد متزايد.
ومع ذلك، لا توجد وسيلة لضمان أن هذه الأنظمة تنتج معلومات دقيقة. هناك مفارقة تتمثل في أن أقوى التقنيات الجديدة، أو ما يسمى بأنظمة "الاستدلال" من شركات مثل OpenAI، وGoogle، وDeepSeek، ترتكب أخطاء أكثر.
![]() |
حوار ChatGPT غير منطقي حيث يسأل المستخدم ما إذا كان ينبغي للكلاب أن تأكل الحبوب. الصورة: ريديت. |
ورغم أن المهارات الرياضية قد تحسنت بشكل كبير، فإن قدرة نماذج اللغة الكبيرة على التقاط الحقيقة أصبحت أكثر هشاشة. ومن المثير للدهشة أن حتى المهندسين أنفسهم ليس لديهم أدنى فكرة عن سبب حدوث ذلك.
وفقًا لصحيفة نيويورك تايمز ، تعتمد برامج المحادثة الذكية اليوم على أنظمة رياضية معقدة لتعلم المهارات من خلال تحليل كميات هائلة من البيانات الرقمية. ومع ذلك، فإنهم لا يستطيعون أن يقرروا ما هو الصواب وما هو الخطأ.
ومن هناك تظهر حالة "الهلوسة" أو المعلومات المصطنعة ذاتيا. في الواقع، ووفقًا للأبحاث، فإن أحدث نماذج الماجستير في القانون هي "أكثر وهمًا" من بعض النماذج القديمة.
على وجه التحديد، في أحدث تقرير، اكتشفت OpenAI أن نموذج o3 "أصيب بالهلوسة" عند الإجابة على 33% من الأسئلة على PersonQA، وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالبشر.
للمقارنة، هذا هو ضعف معدل "الهلوسة" لنماذج التفكير السابقة لـ OpenAI، o1 و o3-mini، والتي كانت 16% و 14.8% على التوالي. وفي الوقت نفسه، كان أداء نموذج o4-mini أسوأ في اختبار PersonQA، حيث عانى من "الهلوسة" لمدة تصل إلى 48% من مدة الاختبار.
الأمر الأكثر إثارة للقلق هو أن "والد ChatGPT" لا يعرف فعليًا سبب حدوث ذلك. على وجه التحديد، في التقرير الفني حول o3 و o4-mini، كتبت OpenAI أن "المزيد من البحث مطلوب لفهم سبب تفاقم "الوهم"" مع توسيع نطاق نماذج التفكير.
يقدم كل من o3 وo4-mini أداءً أفضل في بعض المجالات، بما في ذلك مهام البرمجة والرياضيات. ومع ذلك، وبسبب الحاجة إلى "إبداء المزيد من الادعاءات بدلاً من التعميم"، فإن كلا النموذجين يعاني من مشكلة إنتاج نتائج تتضمن "ادعاءات أكثر دقة، ولكن أيضًا ادعاءات غير دقيقة".
"هذا لن يختفي أبدًا"
بدلاً من مجموعة صارمة من القواعد التي يحددها المهندسون البشريون، تستخدم أنظمة LLM الاحتمالات الرياضية لتخمين أفضل استجابة. لذلك فإنهم يرتكبون دائمًا أخطاء معينة.
قال عمرو عوض الله، المدير التنفيذي السابق في جوجل: "رغم جهودنا الحثيثة، ستظل نماذج الذكاء الاصطناعي وهمية. ولن يزول هذا أبدًا".
![]() |
وفقًا لشركة IBM، فإن الهلوسة تحدث عندما يتلقى نموذج لغوي كبير (LLM) - عادةً برنامج محادثة أو أداة رؤية كمبيوترية - أنماط بيانات غير موجودة أو غير قابلة للتعرف عليها من قبل البشر، مما يؤدي إلى نتائج لا معنى لها أو مضللة. الصورة: iStock. |
وفي ورقة بحثية مفصلة حول التجارب، قالت شركة OpenAI إنها بحاجة إلى المزيد من البحث لفهم أسباب هذه النتائج.
وبما أن أنظمة الذكاء الاصطناعي تتعلم من كميات أكبر بكثير من البيانات التي يمكن للبشر فهمها، فقد يكون من الصعب تحديد سبب تصرفها بطرق معينة، كما يقول الخبراء.
قال غابي رايلا، المتحدث باسم OpenAI: "تُعد الهلوسة أكثر شيوعًا بطبيعتها في نماذج الاستدلال، على الرغم من أننا نعمل بنشاط على تقليل حدوثها في o3 وo4-mini. سنواصل العمل على دراسة الهلوسة في جميع النماذج لتحسين الدقة والموثوقية".
وتُظهِر الاختبارات التي أجرتها العديد من الشركات المستقلة والباحثين أن معدل الوهم يتزايد أيضًا بالنسبة لنماذج الاستدلال من شركات مثل Google أو DeepSeek.
منذ أواخر عام 2023، كانت شركة Vectara التابعة لعوض الله تتعقب عدد المرات التي تنشر فيها برامج الدردشة المعلومات المضللة. طلبت الشركة من هذه الأنظمة تنفيذ مهمة بسيطة وسهلة التحقق تتمثل في تلخيص مقالات إخبارية محددة. ورغم ذلك، تستمر برامج المحادثة الآلية في تلفيق المعلومات.
على وجه التحديد، قدر البحث الأولي لشركة Vectara أنه في هذا السيناريو، قامت برامج المحادثة الآلية بتزوير المعلومات بنسبة 3% على الأقل من الوقت، وأحيانًا تصل إلى 27%.
على مدى العام ونصف العام الماضيين، نجحت شركات مثل OpenAI وGoogle في خفض هذه الأرقام إلى حوالي 1 أو 2%. وتتراوح حصة شركات أخرى، مثل شركة أنثروبيك الناشئة في سان فرانسيسكو، حول 4%.
ومع ذلك، فإن معدل الهلوسة في هذا الاختبار استمر في الارتفاع بالنسبة لأنظمة الاستدلال. ارتفع معدل تعرض نظام الاستدلال R1 التابع لشركة DeepSeek للهلوسة بنسبة 14.3%، في حين ارتفع معدل تعرض نظام o3 التابع لشركة OpenAI بنسبة 6.8%.
هناك مشكلة أخرى وهي أن نماذج الاستدلال مصممة لقضاء الوقت في "التفكير" حول المشاكل المعقدة، قبل التوصل إلى الإجابة النهائية.
![]() |
قامت شركة Apple بإدراج مطالبة لمنع الذكاء الاصطناعي من تلفيق المعلومات في الإصدار التجريبي الأول من نظام التشغيل macOS 15.1. الصورة: Reddit/devanxd2000. |
ومع ذلك، فإن الجانب السلبي هو أنه من خلال محاولة حل المشكلة خطوة بخطوة، فإن نموذج الذكاء الاصطناعي معرض بشكل متزايد لخطر الهلوسة في كل خطوة. والأمر الأكثر أهمية هو أن الأخطاء قد تتراكم مع قضاء النموذج وقتًا أطول في التفكير.
تُظهر أحدث الروبوتات كل خطوة للمستخدم، مما يعني أن المستخدم يمكنه أيضًا رؤية كل خطأ. ووجد الباحثون أيضًا أنه في كثير من الحالات، كانت خطوة التفكير التي يعرضها برنامج المحادثة الآلي غير مرتبطة في الواقع بالإجابة النهائية التي قدمها.
يقول أريو براديبتا جيما، باحث في مجال الذكاء الاصطناعي بجامعة إدنبرة ومساهم في مجلة أنثروبولوجيا: "إن ما يقوله النظام أنه يفكر فيه ليس بالضرورة ما يفكر فيه بالفعل".
المصدر: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
تعليق (0)