روبوتات الدردشة التي تعمل بالذكاء الاصطناعي "تغضب"

في أبريل/نيسان، أبلغ روبوت الذكاء الاصطناعي الذي يتولى الدعم الفني لـ Cursor، وهي أداة ناشئة للمبرمجين، بعض العملاء بتغيير في سياسة الشركة، قائلاً على وجه التحديد إنه لم يعد يُسمح لهم باستخدام Cursor على أكثر من جهاز كمبيوتر واحد.

أعرب العملاء عن غضبهم على المنتديات ومواقع التواصل الاجتماعي. حتى أن بعضهم ألغى حساباتهم على منصة Cursor. لكن غضب البعض الآخر ازداد عندما أدركوا ما حدث: فقد أبلغ روبوت الذكاء الاصطناعي عن تغيير في السياسة لم يكن موجودًا.

كتب مايكل ترول، الرئيس التنفيذي والمؤسس المشارك للشركة، في منشور على ريديت: "ليس لدينا هذه السياسة. يمكنك بالطبع استخدام Cursor على أجهزة متعددة. للأسف، كان هذا ردًا غير صحيح من روبوت يعمل بالذكاء الاصطناعي".

المعلومات المزيفة أصبحت خارجة عن السيطرة.

بعد مرور أكثر من عامين على إطلاق ChatGPT، تستخدم شركات التكنولوجيا والعاملون في المكاتب والمستهلكون اليوميون روبوتات الذكاء الاصطناعي لمجموعة واسعة من المهام بتردد متزايد.

ومع ذلك، لا توجد طريقة لضمان دقة هذه الأنظمة في إنتاج معلومات. ومن المفارقات أن أقوى التقنيات الحديثة، المعروفة بأنظمة "الاستدلال" من شركات مثل OpenAI وGoogle وDeepSeek، ترتكب أخطاءً أكثر.

محادثة سخيفة على ChatGPT، يسأل فيها أحد المستخدمين إن كان ينبغي للكلاب تناول حبوب الإفطار. الصورة: Reddit.

في حين تحسّنت المهارات الرياضية بشكل كبير، أصبحت قدرة نماذج اللغة الكبيرة (LLMs) على التقاط الحقيقة أكثر تذبذبًا. والمثير للدهشة أن حتى المهندسين أنفسهم يجهلون تمامًا سبب ذلك.

وفقًا لصحيفة نيويورك تايمز ، تعتمد روبوتات الدردشة الذكية اليوم على أنظمة رياضية معقدة لتعلم المهارات من خلال تحليل كميات هائلة من البيانات الرقمية. ومع ذلك، لا يمكنها التمييز بين الصواب والخطأ.

من هنا، تظهر حالة "الهلوسة" أو اختلاق المعلومات ذاتيًا. في الواقع، ووفقًا للأبحاث، يعاني الجيل الأحدث من حاملي شهادة الماجستير في القانون من "الهلوسة" أكثر من بعض النماذج القديمة.

على وجه التحديد، في أحدث تقرير، اكتشفت OpenAI أن نموذج o3 "أصيب بالهلوسة" عند الإجابة على 33% من الأسئلة على PersonQA، وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالبشر.

للمقارنة، يُمثل هذا ضعف معدل "الهلوسة" في نموذجي الاستدلال السابقين من OpenAI، o1 وo3-mini، واللذين عانيا من 16% و14.8% من الوقت على التوالي. في الوقت نفسه، كان أداء نموذج o4-mini أسوأ على PersonQA، حيث عانى من "الهلوسة" بنسبة 48% من الوقت.

الأمر الأكثر إثارة للقلق هو أن "مبتكر ChatGPT" لا يعرف سبب حدوث ذلك. وتحديدًا، في التقرير الفني عن o3 وo4-mini، كتبت OpenAI أن "هناك حاجة إلى مزيد من البحث لفهم سبب تفاقم هذا "الوهم" مع توسع نماذج الاستدلال.

كان أداء o3 وo4-mini أفضل في بعض المجالات، بما في ذلك مهام البرمجة والرياضيات. ومع ذلك، نظرًا لحاجتهما إلى "إصدار بيانات أكثر من التعميم"، عانى كلا النموذجين من إنتاج "بيانات أكثر صحة، ولكن أيضًا بيانات أكثر خطأً".

"هذا لن يختفي أبدًا"

بدلاً من مجموعة قواعد صارمة يضعها المهندسون البشريون، تستخدم أنظمة ماجستير القانون الاحتمالات الرياضية لتخمين أفضل إجابة. لذا، فإنها ترتكب دائمًا بعض الأخطاء.

قال عمرو عوض الله، المدير التنفيذي السابق في جوجل: "رغم جهودنا الحثيثة، ستظل نماذج الذكاء الاصطناعي وهمية. ولن يزول هذا أبدًا".

وفقًا لشركة IBM، تحدث الهلوسة عندما يتلقى نموذج لغوي كبير (LLM) - عادةً روبوت محادثة أو أداة رؤية حاسوبية - أنماط بيانات غير موجودة أو غير قابلة للتمييز من قبل البشر، مما يؤدي إلى نتائج غير ذات معنى أو مضللة. الصورة: iStock.

وفي ورقة بحثية مفصلة حول التجارب، قالت شركة OpenAI إنها بحاجة إلى المزيد من البحث لفهم أسباب هذه النتائج.

وبما أن أنظمة الذكاء الاصطناعي تتعلم من كميات أكبر بكثير من البيانات التي يمكن للبشر فهمها، فقد يكون من الصعب تحديد سبب تصرفها بطرق معينة، كما يقول الخبراء.

قال غابي رايلا، المتحدث باسم OpenAI: "تُعد الهلوسة أكثر شيوعًا بطبيعتها في نماذج الاستدلال، على الرغم من أننا نعمل بنشاط على تقليل حدوثها في o3 وo4-mini. سنواصل العمل على دراسة الهلوسة في جميع النماذج لتحسين الدقة والموثوقية".

وتُظهِر الاختبارات التي أجرتها العديد من الشركات المستقلة والباحثين أن معدل الوهم يتزايد أيضًا بالنسبة لنماذج الاستدلال من شركات مثل Google أو DeepSeek.

منذ أواخر عام ٢٠٢٣، ترصد شركة عوض الله "فيكتارا" وتيرة نشر روبوتات الدردشة لمعلومات كاذبة. طلبت الشركة من الأنظمة القيام بمهمة بسيطة وسهلة التحقق، وهي تلخيص مقالات إخبارية محددة. ومع ذلك، استمرت روبوتات الدردشة في تزييف المعلومات.

على وجه التحديد، قدر البحث الأولي لشركة Vectara أنه في هذا السيناريو، قامت برامج المحادثة الآلية بتزوير المعلومات بنسبة 3% على الأقل من الوقت، وأحيانًا تصل إلى 27%.

على مدار العام ونصف العام الماضيين، خفضت شركات مثل OpenAI وGoogle هذه النسب إلى حوالي 1% أو 2%. بينما تتراوح نسب شركات أخرى، مثل شركة Anthropic الناشئة في سان فرانسيسكو، حول 4%.

مع ذلك، استمر معدل الهلوسة في هذا الاختبار بالازدياد في أنظمة الاستدلال. ارتفع معدل الهلوسة بنسبة 14.3% في نظام الاستدلال R1 من DeepSeek، بينما ارتفع معدل o3 في نظام OpenAI بنسبة 6.8%.

هناك مشكلة أخرى وهي أن نماذج الاستدلال مصممة لقضاء الوقت في "التفكير" حول المشاكل المعقدة، قبل التوصل إلى الإجابة النهائية.

أضافت شركة آبل مُطالبةً لمنع الذكاء الاصطناعي من تزييف المعلومات في أول نسخة تجريبية من نظام macOS 15.1. الصورة: Reddit/devanxd2000.

لكن الجانب السلبي هو أنه كلما حاول نموذج الذكاء الاصطناعي حل المشكلة خطوةً بخطوة، أصبح أكثر عرضة للهلوسة في كل خطوة. والأهم من ذلك، أن الأخطاء قد تتراكم كلما أمضى النموذج وقتًا أطول في التفكير.

تُظهر أحدث الروبوتات للمستخدمين كل خطوة، ما يعني أنه يمكنهم أيضًا رؤية كل خطأ. ووجد الباحثون أيضًا أنه في كثير من الحالات، لا ترتبط عملية التفكير التي يعرضها روبوت المحادثة بالإجابة النهائية التي يقدمها.

يقول أريو براديبتا جيما، باحث في مجال الذكاء الاصطناعي بجامعة إدنبرة ومساهم في مجلة أنثروبولوجيا: "إن ما يقوله النظام أنه يفكر فيه ليس بالضرورة ما يفكر فيه بالفعل".

المصدر: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html