وتتضمن جائزة تورينج، التي يطلق عليها "جائزة نوبل في الحوسبة" منذ إنشائها في عام 1966، جائزة قدرها مليون دولار أميركي يتقاسمها العالمان.

بدأت رحلة "التعلم التعزيزي" في عام 1977، عندما اقترح أندرو بارتو، الباحث في جامعة ماساتشوستس في أمهرست آنذاك، نظرية جديدة: تعمل الخلايا العصبية في الدماغ البشري كـ "ملذات"، وتسعى دائمًا إلى تعظيم المتعة وتقليل الألم.

في عام ١٩٧٨، انضم ريتشارد ساتون إلى أندرو بارتو لتطوير هذه الفكرة لشرح الذكاء البشري وتطبيقه على الذكاء الاصطناعي. وكانت النتيجة ولادة "التعلم المعزز"، وهي طريقة تُمكّن أنظمة الذكاء الاصطناعي من التعلم من "الفرح" و"الألم" رقميًا.

741892ab198395c98fd211f6f918a95144a8b819.jpeg
تلعب أبحاث أندرو بارتو (يسار) وريتشارد ساتون (يمين) في جامعة ماساتشوستس دورًا هامًا في أنظمة الذكاء الاصطناعي الحالية. الصورة: نيويورك تايمز

لقد مهد عملهم الطريق لاختراقات كبرى على مدى العقد الماضي، من نظام AlphaGo التابع لشركة Google الذي هزم لاعب Go العالمي Lee Sedol في عام 2016، إلى روبوت المحادثة ChatGPT التابع لشركة OpenAI، والذي يشبه الإنسان بشكل مدهش في قدراته المحادثة.

ويقول أورين إيتزيوني، الأستاذ الفخري بجامعة واشنطن ومؤسس معهد ألين للذكاء الاصطناعي، الذي لا يزال كتابه الصادر عام 1998 بعنوان "مقدمة في التعلم المعزز" هو النص القياسي في هذا المجال: "إنهم رواد بلا منازع في مجال التعلم المعزز".

لطالما درس علماء النفس كيفية تعلم البشر والحيوانات من تجاربهم. في أربعينيات القرن الماضي، اقترح عالم الحاسوب البريطاني الرائد آلان تورينج أن الآلات تستطيع التعلم بطريقة مماثلة.

لكن الدكتور بارتو والدكتور ساتون هما من بدأا باستكشاف رياضيات كيفية عمل هذا، بناءً على نظرية اقترحها أ. هاري كلوب، عالم حاسوب يعمل لدى الحكومة. ثم أنشأ الدكتور بارتو مختبرًا في جامعة ماساتشوستس أمهرست مُخصصًا لهذه الفكرة، بينما أنشأ الدكتور ساتون مختبرًا مشابهًا في جامعة ألبرتا في كندا.

لا يقتصر "التعلم التعزيزي" على الألعاب فحسب. فباستخدام تقنية "التعلم التعزيزي من ردود الفعل البشرية" (RLHF)، درب مئات المستخدمين ChatGPT على تحسين قدرته على الإجابة.

في الآونة الأخيرة، قامت شركات مثل OpenAI وDeepSeek أيضًا بتطوير أنظمة التعلم الذاتي التي تسمح لروبوتات المحادثة بحل المشكلات بنفسها ومحاكاة التفكير البشري، مما أدى إلى ظهور أنظمة "التفكير" مثل OpenAI's o1 أو DeepSeek's R1.

بالنظر إلى المستقبل، يعتقد كلا العالمين أن "التعلم المُعزَّز" سيساعد الروبوتات على التعلم من تجارب العالم الواقعي، تمامًا كما يفعل البشر والحيوانات. يقول بارتو: "من الطبيعي جدًا التحكم في الكائن الحي من خلال التعلم المُعزَّز ".

بفضل مساهماتهما الثورية، لا يستحق أندرو بارتو وريتشارد ساتون جائزة تورينج فحسب، بل يفتحان أيضًا الباب أمام عصر جديد من الذكاء الاصطناعي.

الصين تتجه لتجاوز قيود التصدير الأميركية لشراء أحدث رقائق الذكاء الاصطناعي من إنفيديا يسعى العملاء الصينيون إلى تجاوز قيود التصدير الأميركية لطلب أحدث رقائق إنفيديا.