في الخامس من مارس، أعلنت جمعية آلات الحوسبة عن منح جائزة تورينج للعلماء أندرو بارتو وريتشارد ساتون لأبحاثهما حول "التعلم المعزز" الذي يسمح للذكاء الاصطناعي بالتعلم من "الفرح" و"الألم" في شكل رقمي.
وتتضمن جائزة تورينج، التي يطلق عليها "جائزة نوبل في الحوسبة" منذ إنشائها في عام 1966، جائزة قدرها مليون دولار أميركي يتقاسمها العالمان.
بدأت رحلة "التعلم التعزيزي" في عام 1977، عندما اقترح أندرو بارتو، الباحث في جامعة ماساتشوستس في أمهرست آنذاك، نظرية جديدة: تعمل الخلايا العصبية في الدماغ البشري كـ "ملذات"، وتسعى دائمًا إلى تعظيم المتعة وتقليل الألم.
في عام ١٩٧٨، انضم ريتشارد ساتون إلى أندرو بارتو لتطوير هذه الفكرة لشرح الذكاء البشري وتطبيقه على الذكاء الاصطناعي. وكانت النتيجة ولادة "التعلم المعزز"، وهي طريقة تُمكّن أنظمة الذكاء الاصطناعي من التعلم من "الفرح" و"الألم" رقميًا.
لقد مهد عملهم الطريق لاختراقات كبرى على مدى العقد الماضي، من نظام AlphaGo التابع لشركة Google الذي هزم لاعب Go العالمي Lee Sedol في عام 2016، إلى روبوت المحادثة ChatGPT التابع لشركة OpenAI، والذي يشبه الإنسان بشكل مدهش في قدراته المحادثة.
ويقول أورين إيتزيوني، الأستاذ الفخري بجامعة واشنطن ومؤسس معهد ألين للذكاء الاصطناعي، الذي لا يزال كتابه الصادر عام 1998 بعنوان "مقدمة في التعلم المعزز" هو النص القياسي في هذا المجال: "إنهم رواد بلا منازع في مجال التعلم المعزز".
لطالما درس علماء النفس كيفية تعلم البشر والحيوانات من تجاربهم. في أربعينيات القرن الماضي، اقترح عالم الحاسوب البريطاني الرائد آلان تورينج أن الآلات تستطيع التعلم بطريقة مماثلة.
لكن الدكتور بارتو والدكتور ساتون هما من بدأا باستكشاف رياضيات كيفية عمل هذا، بناءً على نظرية اقترحها أ. هاري كلوب، عالم حاسوب يعمل لدى الحكومة. ثم أنشأ الدكتور بارتو مختبرًا في جامعة ماساتشوستس أمهرست مُخصصًا لهذه الفكرة، بينما أنشأ الدكتور ساتون مختبرًا مشابهًا في جامعة ألبرتا في كندا.
لا يقتصر "التعلم التعزيزي" على الألعاب فحسب. فباستخدام تقنية "التعلم التعزيزي من ردود الفعل البشرية" (RLHF)، درب مئات المستخدمين ChatGPT على تحسين قدرته على الإجابة.
في الآونة الأخيرة، قامت شركات مثل OpenAI وDeepSeek أيضًا بتطوير أنظمة التعلم الذاتي التي تسمح لروبوتات المحادثة بحل المشكلات بنفسها ومحاكاة التفكير البشري، مما أدى إلى ظهور أنظمة "التفكير" مثل OpenAI's o1 أو DeepSeek's R1.
بالنظر إلى المستقبل، يعتقد كلا العالمين أن "التعلم المُعزَّز" سيساعد الروبوتات على التعلم من تجارب العالم الواقعي، تمامًا كما يفعل البشر والحيوانات. يقول بارتو: "من الطبيعي جدًا التحكم في الكائن الحي من خلال التعلم المُعزَّز ".
بفضل مساهماتهما الثورية، لا يستحق أندرو بارتو وريتشارد ساتون جائزة تورينج فحسب، بل يفتحان أيضًا الباب أمام عصر جديد من الذكاء الاصطناعي.
[إعلان 2]
المصدر: https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
تعليق (0)