يجذب بحث Apple الجديد حول نماذج الاستدلال الكبيرة الانتباه. الصورة: Macrumors . |
بعد ثلاث سنوات فقط من إطلاقه، بدأ الذكاء الاصطناعي بالظهور في العديد من الأنشطة اليومية كالدراسة والعمل. ويخشى كثيرون من أنه لن يمضي وقت طويل قبل أن يحل محل البشر.
لكن نماذج الذكاء الاصطناعي الجديدة ليست ذكية كما نعتقد. وقد عززت نتائج شركة تقنية كبرى هذا الاعتقاد.
الجميع يعرف "من الصعب جدًا تجاهله"
في دراسة نُشرت حديثًا بعنوان "التفكير الوهمي"، يؤكد فريق البحث التابع لشركة Apple أن نماذج الاستدلال مثل Claude وDeepSeek-R1 وo3-mini ليست في الواقع "مدفوعة بالدماغ" كما تشير أسماؤها.
ينبغي استبدال كلمة "استنتاج" بكلمة "تقليد". تُجادل المجموعة بأن هذه النماذج ببساطة فعّالة في حفظ الأنماط وتكرارها. ولكن عند تغيير السؤال أو زيادة تعقيده، تكاد تنهار.
ببساطة، تعمل روبوتات الدردشة بكفاءة عندما تتمكن من التعرف على الأنماط ومطابقتها، ولكن عندما تصبح المشكلة معقدة للغاية، لا يمكنها التعامل معها. وتشير الدراسة إلى أن "نماذج الاستدلال الكبيرة (LRMs) الحديثة تعاني من انهيار كامل في الدقة عندما يتجاوز التعقيد حدًا معينًا".
يتعارض هذا مع توقعات المطورين بتحسن التعقيد مع زيادة الموارد. وأضافت الدراسة: "يزداد جهد الذكاء الاصطناعي في الاستدلال مع التعقيد، ولكن إلى حدٍّ معين فقط، ثم يتناقص، حتى مع وجود ميزانية رمزية كافية (قوة حسابية) للتعامل معه".
في هذه الدراسة، غيّر الباحثون نموذج الأسئلة المُستخدم عادةً للإجابة على الأسئلة. فبدلاً من اختبار الرياضيات المُعتاد، قدّموا ألغازًا مُصمّمة بذكاء مثل "برج هانوي"، و"قفزة الشطرنج"، و"عبور النهر"، و"عالم الكتل".
تتميز كل لعبة ألغاز بقواعد بسيطة وواضحة، مع مستويات تعقيد متفاوتة، مثل إضافة المزيد من الأقراص والكتل والعناصر. يُظهر نموذج الاستدلال أداءً أفضل في مستوى الصعوبة المتوسط، لكنه يتراجع أمام الإصدار العادي في مستوى الصعوبة السهل. والجدير بالذكر أن كل شيء ينهار تمامًا في مستوى الصعوبة الصعب، كما لو أن الذكاء الاصطناعي قد استسلم.
في مسألة برج هانوي ، لم يُحسّن الفريق أداء نموذج الاستدلال بشكل كبير رغم "تغذية" خوارزمية حل المسألة. استطاعت بعض النماذج اجتياز اللعبة حتى 100 مستوى، لكنها لم تتمكن من اجتياز سوى خمس خطوات بشكل غير كامل في مسألة عبور النهر.
![]() |
في برج هانوي، على اللاعبين تحريك الدوائر وإعادة وضعها حسب حجمها. الصورة: ويكيبيديا. |
يشير هذا إلى ضعف أداء الاستدلال، بالإضافة إلى ضعف استقرار نماذج LRM. في خضم جدل واسع حول قدرة الذكاء الاصطناعي على مطابقة البشر، تُثبت هذه الدراسة الجديدة من Apple عكس ذلك.
اكتشاف أبل ليس جديدًا
قال غاري ماركوس، عالم النفس والمؤلف الأمريكي، إن نتائج شركة آبل مثيرة للإعجاب، لكنها ليست جديدة تمامًا، بل إنها تُعزز فقط الأبحاث السابقة. واستشهد الأستاذ الفخري لعلم النفس وعلم الأعصاب في جامعة نيويورك بدراسته التي أجراها عام ١٩٩٨ كمثال.
وفي هذا الكتاب، يزعم أن الشبكات العصبية، وهي السلائف لنماذج اللغة الكبيرة، قادرة على التعميم بشكل جيد ضمن توزيع البيانات التي تم تدريبها عليها، ولكنها تنهار في كثير من الأحيان عندما تواجه بيانات خارج التوزيع.
ويستشهد أيضًا بحججٍ طرحها عالم الحاسوب بجامعة ولاية أريزونا، سوباراو كامبهاباتي، في السنوات الأخيرة. ويعتقد البروفيسور راو أن "سلاسل الأفكار" و"نماذج الاستدلال" أقل موثوقيةً بطبيعتها مما يعتقده الكثيرون.
يقول الأستاذ الذي كتب سلسلة من الأوراق البحثية حول كيفية عدم انعكاس تسلسل الأفكار التي تولدها برامج الماجستير في القانون بدقة دائمًا على ما تفعله بالفعل: "يميل الناس إلى المبالغة في تشبيه آثار الاستدلال في نماذج اللغة الكبيرة، ويطلقون عليها اسم "أفكار" عندما لا تستحق هذا الاسم".
تُظهر دراسة جديدة من شركة آبل أن حتى أحدث جيل من نماذج الاستدلال غير موثوقة خارج نطاق بيانات التدريب. يقول ماركوس إن لكلٍّ من نموذجي LLM وLRM استخداماته، وقد يكونان مفيدين في بعض الحالات. مع ذلك، لا ينبغي للمستخدمين الوثوق بأيٍّ من نتائجهما.
المصدر: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html
تعليق (0)