Am 5. März verlieh die Association for Computing Machinery den Turing Award an die Wissenschaftler Andrew Barto und Richard Sutton für ihre Forschung zum „Reinforcement Learning“, das es KI ermöglicht, in digitaler Form aus „Freude“ und „Schmerz“ zu lernen.
Der Turing Award, der seit seiner Einführung im Jahr 1966 als „Nobelpreis der Informatik“ gilt, ist mit einer Million Dollar dotiert, die sich die beiden Wissenschaftler teilen.
Die Reise des „bestärkenden Lernens“ begann 1977, als Andrew Barto, damals Forscher an der University of Massachusetts in Amherst, eine neue Theorie vorschlug: Neuronen im menschlichen Gehirn agieren als „Hedonisten“, die stets versuchen, das Vergnügen zu maximieren und den Schmerz zu minimieren.
1978 entwickelte Richard Sutton gemeinsam mit Andrew Barto diese Idee zur Erklärung menschlicher Intelligenz weiter und wandte sie auf künstliche Intelligenz (KI) an. Das Ergebnis war die Geburtsstunde des „Reinforcement Learning“ – einer Methode, die es KI-Systemen ermöglicht, aus „Freude“ und „Schmerz“ in digitaler Form zu lernen.
Ihre Arbeit hat den Grundstein für bedeutende Durchbrüche im letzten Jahrzehnt gelegt, vom AlphaGo-System von Google, das 2016 den Weltklasse- Go-Spieler Lee Sedol besiegte, bis hin zum Chatbot ChatGPT von OpenAI, dessen Konversationsfähigkeiten überraschend menschenähnlich sind.
„Sie sind die unangefochtenen Pioniere des bestärkenden Lernens“, sagt Oren Etzioni, emeritierter Professor der University of Washington und Gründer des Allen Institute for Artificial Intelligence, dessen 1998 erschienenes Buch „Introduction to Reinforcement Learning“ bis heute das Standardwerk auf diesem Gebiet ist.
Psychologen untersuchen seit langem, wie Menschen und Tiere aus ihren Erfahrungen lernen. In den 1940er Jahren schlug der britische Informatikpionier Alan Turing vor, dass Maschinen auf ähnliche Weise lernen könnten.
Doch erst Dr. Barto und Dr. Sutton begannen, die mathematischen Grundlagen dieser Ideezu erforschen . Dabei bauten sie auf einer Theorie des staatlichen Informatikers A. Harry Klopf auf. Dr. Barto richtete daraufhin ein eigenes Labor an der University of Massachusetts Amherst ein, das sich dieser Idee widmete, während Dr. Sutton ein ähnliches Labor an der University of Alberta in Kanada einrichtete.
„Reinforcement Learning“ ist nicht nur für Spiele geeignet. Mithilfe der „Reinforcement Learning from Human Feedback“ (RLHF)-Technik wurde ChatGPT von Hunderten von Benutzern trainiert, um seine Antwortfähigkeit zu verbessern.
In jüngster Zeit haben Unternehmen wie OpenAI und DeepSeek auch selbstlernende Systeme entwickelt, die es Chatbots ermöglichen, Probleme selbstständig zu lösen und menschliches Denken zu simulieren, was zur Entstehung von „Denksystemen“ wie o1 von OpenAI oder R1 von DeepSeek geführt hat.
Mit Blick auf die Zukunft glauben beide Wissenschaftler, dass „Reinforcement Learning“ Robotern helfen wird, aus realen Erfahrungen zu lernen, genau wie Menschen und Tiere. „Es ist ganz natürlich, einen Organismus durch Reinforcement Learning zu steuern“, sagte Barto.
Mit ihren revolutionären Beiträgen verdienen Andrew Barto und Richard Sutton nicht nur den Turing Award, sondern öffnen auch die Tür zu einer neuen Ära der künstlichen Intelligenz.
[Anzeige_2]
Quelle: https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
Kommentar (0)