يقوم الذكاء الاصطناعي بتقييم البشر سراً.

بدلاً من تقييم البشر للذكاء الاصطناعي كما كان سابقاً، عكست شركة أنثروبيك العملية. سيقوم كلود بتحليل سجل محادثات المستخدمين لتقييم "مستوى" استخدامهم للذكاء الاصطناعي.

ZNews•31/05/2026

يقوم تطبيق Chabot Claude بتقييم كفاءة المستخدم بناءً على تفاعلاته. الصورة: VectorStock .

أحدثت شركة أنثروبيك بحثًا بعنوان "مؤشر إتقان الذكاء الاصطناعي"، قلبت المفاهيم السائدة رأسًا على عقب، حيث قام برنامج الدردشة الآلي "كلود" بتقييم البشر. ومن خلال تحليل بنية المحادثات، يصنف الذكاء الاصطناعي كفاءة المستخدمين على مقياس من 11 نقطة.

لتطوير إطار الكفاءات الذي يتألف من 24 معيارًا، استخدمت شركة أنثروبيك أدوات تحليلية لمسح 9830 محادثة حقيقية للمستخدمين.

من بين هذه المعايير، 13 معياراً تقع خارج الشاشة، مثل ما إذا كان المستخدمون يخفون استخدامهم للذكاء الاصطناعي عن رؤسائهم. أما المعايير الـ 11 المتبقية فهي مقاييس سلوك المستخدم، وتنقسم إلى ثلاثة جوانب رئيسية: الوصف، والتفويض، والتعريف.

مدى انتشار كل مؤشر سلوكي في تفاعلات الذكاء الاصطناعي عبر 9830 محادثة مع كلود. الصورة: أنثروبيك.

أولًا، هناك طريقة وصف الطلب، حيث يجب على المستخدمين إظهار فهم حقيقي لما يريدونه. فبدلًا من إعطاء أوامر مبهمة، يُحدد الأفراد ذوو الأداء العالي دائمًا الهدف النهائي بوضوح ويشرحون السياق بالتفصيل. كما يُقدمون متطلبات محددة للغاية فيما يتعلق بأسلوب العرض، مثل مطالبة الذكاء الاصطناعي بإنشاء جداول أو تحديد عدد الكلمات. والجدير بالذكر أن هذه المجموعة غالبًا ما تُضمّن عدة نماذج من المقالات كأمثلة ليُحاكيها الذكاء الاصطناعي منذ البداية.

أما الجانب الثاني فيتمثل في طريقة تفويض المهام. تُظهر الأبحاث أن المستخدمين الماهرين يتعاملون مع الذكاء الاصطناعي كشريك في الحوار، لا كآلة جامدة. ويكمن الاختلاف الأكبر في المثابرة. فبدلاً من إصدار أمر نهائي، ينخرطون في جولات متعددة من المحادثات المتبادلة لتحسين إجابات الذكاء الاصطناعي ومراجعتها حتى يرضوا عنها تماماً. ويحدث هذا السلوك في 85.7% من المحادثات عالية الجودة.

أما الجانب الأخير فهو التمييز، الذي يعمل كمرشح لمنع تضليل المستخدمين بالمعلومات التي تقدمها روبوتات المحادثة. يحتاج المستخدمون إلى التشكيك باستمرار في منطق الاستدلال، وطلب شرح كل سطر من التعليمات البرمجية من الذكاء الاصطناعي، أو طلب مراجع واضحة. كما يحتاجون إلى أن يكونوا على قدر كافٍ من الفطنة لتحديد السياق المفقود في حلول الذكاء الاصطناعي، وذلك لإجراء تقييمات وتعديلات في الوقت المناسب على الاستنتاجات.

يحصل المستخدمون ذوو الخبرة عادةً على تقييم يتراوح بين 7 و8 من Clade. الصورة: X.

ومع ذلك، تشير الأبحاث أيضًا إلى فخ نفسي مقلق، يُعرف باسم "مفارقة الواجهة الجميلة". فعندما تُنشئ ميزة "القطع الأثرية" الخاصة بكلود منتجات جذابة بصريًا مثل قطعة من التعليمات البرمجية السلسة أو رسم بياني مثالي، فإن أدمغتنا تميل على الفور إلى أن تصبح "مفكرين كسولين" وتتوقف عن التفكير النقدي.

تُظهر إحصائيات الدراسة أنه عندما يرى المستخدمون واجهة مستخدم مصقولة، تنخفض نسبة من يبحثون بنشاط عن عيوبها بنسبة 5.2%. كما تنخفض قدرتهم على التحقق من صحة المعلومات بنسبة 3.7%، وتنخفض نسبة من يشككون في منطقيتها بنسبة 3.1%.

وأشار خبراء في شركة أنثروبيك إلى أنه "إذا بدا شيء ما مثالياً، فسيفترض المستخدمون تلقائياً أنه صحيح".

هذا النهج الذاتي خطير للغاية. في الواقع، كلما زادت تعقيد المهمة، زادت احتمالية ارتكاب الذكاء الاصطناعي للأخطاء أو "تلفيق" المعلومات. إذا حكم البشر على الجودة الداخلية بناءً على المظاهر فقط، فسوف يسهل خداعنا من قِبل الذكاء الاصطناعي.

بحسب التقرير، يحصل المستخدمون الذين ينخرطون بانتظام في حوارات تفاعلية ويشيرون إلى عيوب الذكاء الاصطناعي على تقييمات أعلى بخمس إلى ست مرات من المستخدمين العاديين. كما أنهم أكثر قدرة على رصد أوجه القصور والتناقضات مقارنةً ببقية المستخدمين. ويحصل هؤلاء "الخبراء" عادةً على تقييمات تتراوح بين 7 و8 من 11 من كلود.

المصدر: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html