في إحدى عطلات نهاية الأسبوع في منتصف شهر مايو، عُقد اجتماع مغلق لعلماء الرياضيات. سافر ثلاثون من أبرز علماء الرياضيات في العالم سرًا إلى بيركلي، كاليفورنيا، الولايات المتحدة الأمريكية، للمشاركة في اختبار مع برنامج دردشة آلي قادر على "التفكير المنطقي". كُلِّف هذا البرنامج بحلّ مسائل وضعها علماء الرياضيات أنفسهم، وذلك لاختبار قدراته على حلّ المشكلات.
بعد يومين متتاليين من إغراقهم بأسئلة على مستوى الأستاذية، اندهش علماء الرياضيات عندما اكتشفوا أن هذا الروبوت الدردشة يمكنه حل بعض أصعب المشكلات التي تم حلها على الإطلاق في التاريخ.
قال كين أونو، الأستاذ بجامعة فيرجينيا ورئيس وحكم الاجتماع، لمجلة ساينتفك أمريكان: "لقد رأيت زملاء يقولون صراحةً إن نموذج اللغة واسع النطاق هذا يقترب من مستوى العبقرية الرياضية".
يعتمد برنامج الدردشة الآلي المذكور على o4-mini ، وهو نموذج لغوي ضخم (LLM) مصمم للاستدلال المعقد. هذا المنتج من OpenAI مُدرَّب على تنفيذ خطوات استدلال متطورة. كما يمتلك نموذج مشابه من جوجل، يُسمى Gemini 2.5 Flash، قدرات مماثلة.
على غرار نماذج التعلم المعزز السابقة في ChatGPT، يتعلم o4-mini التنبؤ بالكلمة التالية في سلسلة نصية. إلا أن الاختلاف يكمن في كونه نسخة أخف وزنًا وأكثر مرونة، تم تدريبه على بيانات ضخمة وخضع لضبط دقيق من قبل البشر، مما يسمح له بالخوض في مسائل رياضية لم تتمكن النماذج السابقة من حلها.
لتقييم قدرات نموذج o4-mini واختبارها، كلّفت OpenAI منظمة Epoch AI، وهي منظمة غير ربحية متخصصة في اختبار نماذج التعلم الخطي، بإنشاء 300 سؤال رياضي لم يُنشر سابقًا. وبينما تستطيع نماذج التعلم الخطي التقليدية حلّ العديد من المسائل المعقدة، إلا أنها عند مواجهة أسئلة جديدة تمامًا، لم تُحلّ معظمها إلا بنسبة تقل عن 2% بشكل صحيح. وهذا يُظهر افتقارها إلى القدرة الحقيقية على الاستدلال المنطقي.
في أحدث مشاريعها التقييمية، عيّنت شركة Epoch AI الباحث الشاب الحاصل على درجة الدكتوراه في الرياضيات، إليوت جليزر، قائداً لها. وسيُطلق المشروع الجديد، المسمى FrontierMath ، في سبتمبر 2024.
جمع المشروع أسئلة جديدة موزعة على أربعة مستويات صعوبة، تتراوح بين أسئلة المرحلة الجامعية والدراسات العليا وصولاً إلى أسئلة البحث المعمق. في أبريل 2025، وجد جليزر أن برنامج o4-mini قادر على حل حوالي 20% من المسائل. لذلك، قام على الفور بنقله إلى المستوى الرابع، مما يتطلب منه حل مسائل يصعب حتى على علماء الرياضيات المتقدمين حلها.
كان على المشاركين توقيع اتفاقية سرية، والتواصل فقط من خلال تطبيق Signal المشفر، حيث يمكن فحص استخدام البريد الإلكتروني و"معرفة" محتواه بواسطة برنامج LLM، مما يؤدي إلى تزييف بيانات التقييم.
سيحصل واضع المسألة على جائزة قدرها 7500 دولار مقابل كل مسألة لا يستطيع o4-mini حلها.
كان فريق العمل الأولي بطيئًا لكنه ثابت في طرح الأسئلة. ومع ذلك، قرر جليزر تسريع الأمور بتنظيم اجتماع حضوري لمدة يومين في 17 و18 مايو. حضر الاجتماع ثلاثون عالم رياضيات، تم تقسيمهم إلى مجموعات من ستة أفراد، يتنافسون فيما بينهم - ليس لحل المشكلات، بل لابتكار مشكلات لا يستطيع الذكاء الاصطناعي حلها.
بحلول مساء السابع عشر من مايو، بدأ كين أونو يشعر بالإحباط من برنامج الدردشة الآلي، الذي أظهر مستوىً من القدرة الرياضية يفوق التوقعات بكثير، مما صعّب على الفريق "الإيقاع" به. وروى قائلاً: "لقد توصلتُ إلى مشكلةٍ سيُدرك خبراء الصناعة أنها مشكلةٌ مفتوحةٌ في نظرية الأعداد - مشكلةٌ تصلح لرسالة دكتوراه".
ونتيجة لذلك، عندما سأل o4-mini، ذُهل من قدرة برنامج الدردشة الآلي على التحليل والاستدلال وتقديم الحل الصحيح في غضون 10 دقائق فقط. وبالتحديد، في الدقيقتين الأوليين، بحث البرنامج واستوعب جميع المعلومات ذات الصلة. ثم اقترح تجربة نسخة أبسط من المشكلة لتعلم الطريقة.
بعد خمس دقائق، قدّم برنامج الدردشة الآلي الإجابة الصحيحة، مصحوبة بنبرة واثقة، بل ومتغطرسة بعض الشيء. وروى أونو قائلاً: "بدأ يتصرف بخبث، بل وأضاف: 'لا داعي للاقتباس، لقد حسبتُ الرقم الغامض بالفعل!'"
بعد فشله أمام الذكاء الاصطناعي، أرسل أونو صباح يوم 18 مايو/أيار رسالة تنبيه فورية إلى الفريق عبر تطبيق سيجنال. وقال: "لم أكن مستعدًا على الإطلاق للتعامل مع نموذج كهذا. لم أرَ قط هذا النوع من التفكير في نموذج حاسوبي. لقد كان يفكر كما يفكر العالم الحقيقي. وكان ذلك مرعبًا".
على الرغم من أن علماء الرياضيات نجحوا في النهاية في إيجاد 10 أسئلة حيرت برنامج o4-mini، إلا أنهم لم يتمكنوا من إخفاء دهشتهم من سرعة تطور الذكاء الاصطناعي في عام واحد فقط.
شبّه أونو تجربة العمل مع o4-mini بالتعاون مع زميل موهوب للغاية. وعلّق يانغ هوي هي، عالم الرياضيات في معهد العلوم الرياضية في لندن والرائد في تطبيق الذكاء الاصطناعي على الرياضيات، قائلاً: "هذا ما يمكن أن يفعله طالب دراسات عليا متميز للغاية، بل وأكثر من ذلك".
ومن الجدير بالذكر أن الذكاء الاصطناعي يعمل بسرعة أكبر بكثير من البشر. فبينما يستغرق حل المسائل من البشر أسابيع أو شهوراً، لا يستغرق حلها باستخدام o4-mini سوى بضع دقائق.
أثار الحماس المحيط بمنافسة الذكاء مع o4-mini قلقًا بالغًا. فقد حذّر كلٌّ من أونو وهي من أن قدرات o4-mini قد تؤدي إلى ثقة مفرطة. قال هي: "لدينا برهان بالاستقراء، وبرهان بالتناقض، والآن برهان... بالقوة الساحقة. إذا عبّرت عن شيء بثقة كافية، سيشعر الآخرون بالرهبة. أعتقد أن o4-mini قد أتقن هذا النوع من البرهان: فكل ما يقوله يقيني تمامًا."
مع اختتام الاجتماع، بدأ علماء الرياضيات بالتفكير في مستقبل الرياضيات. ناقشوا إمكانية وجود "مستوى خامس" - أسئلة يعجز حتى أفضل علماء الرياضيات في العالم عن حلها. إذا وصل الذكاء الاصطناعي إلى هذا المستوى، فسيتغير دور عالم الرياضيات جذريًا: فقد يصبح حينها مُستفسرًا، يتفاعل مع الذكاء الاصطناعي ويوجهه في استدلاله لاكتشاف حقائق رياضية جديدة - على غرار كيفية عمل الأستاذ مع طلاب الدراسات العليا.
قال أونو: "لطالما أخبرت زملائي أنه من الخطأ الفادح افتراض أن الذكاء الاصطناعي العام لن يظهر أبدًا، وأنه مجرد جهاز كمبيوتر. لا أريد أن أثير الذعر، ولكن في بعض النواحي، بدأت نماذج اللغة الضخمة هذه بالفعل تتفوق على أداء معظم أفضل طلاب الدراسات العليا في العالم."
المصدر: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






تعليق (0)