El 5 de marzo, la Asociación para la Maquinaria Computacional anunció el Premio Turing a los científicos Andrew Barto y Richard Sutton por su investigación sobre el "aprendizaje de refuerzo" que permite a la IA aprender de la "alegría" y el "dolor" en forma digital.
El Premio Turing, considerado el "Premio Nobel de la informática" desde su creación en 1966, está dotado con un millón de dólares que compartirán los dos científicos.
El viaje del “aprendizaje por refuerzo” comenzó en 1977, cuando Andrew Barto, entonces investigador de la Universidad de Massachusetts, Amherst, propuso una nueva teoría: las neuronas del cerebro humano actúan como “hedonistas”, buscando siempre maximizar el placer y minimizar el dolor.
En 1978, Richard Sutton se unió a Andrew Barto para desarrollar esta idea y explicar la inteligencia humana y aplicarla a la inteligencia artificial (IA). El resultado fue el nacimiento del «aprendizaje por refuerzo», un método que permite a los sistemas de IA aprender de la «alegría» y el «dolor» en formato digital.
Su trabajo ha sentado las bases para importantes avances en la última década, desde el sistema AlphaGo de Google, que derrotó al jugador de Go de talla mundial Lee Sedol en 2016, hasta el chatbot ChatGPT de OpenAI, que es sorprendentemente similar a un humano en sus habilidades de conversación.
“Son los pioneros indiscutibles en el aprendizaje por refuerzo”, afirma Oren Etzioni, profesor emérito de la Universidad de Washington y fundador del Instituto Allen de Inteligencia Artificial, cuyo libro de 1998 “Introducción al aprendizaje por refuerzo” sigue siendo el texto estándar en el campo.
Los psicólogos han estudiado durante mucho tiempo cómo los humanos y los animales aprenden de sus experiencias. En la década de 1940, el pionero informático británico Alan Turing propuso que las máquinas podían aprender de forma similar.
Pero fueron el Dr. Barto y el Dr. Sutton quienes comenzarona explorar las matemáticas de cómo esto podría funcionar, basándose en una teoría propuesta por A. Harry Klopf, un informático que trabajaba para el gobierno. El Dr. Barto construyó entonces un laboratorio en la Universidad de Massachusetts Amherst dedicado a esta idea, mientras que el Dr. Sutton creó un laboratorio similar en la Universidad de Alberta, Canadá.
El aprendizaje por refuerzo no es solo para juegos. Mediante la técnica de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), ChatGPT ha sido entrenado por cientos de usuarios para mejorar su capacidad de respuesta.
Recientemente, empresas como OpenAI y DeepSeek también han desarrollado sistemas de autoaprendizaje que permiten a los chatbots resolver problemas por sí mismos y simular el razonamiento humano, lo que ha llevado a la aparición de sistemas de "razonamiento" como el o1 de OpenAI o el R1 de DeepSeek.
De cara al futuro, ambos científicos creen que el aprendizaje por refuerzo ayudará a los robots a aprender de la experiencia real, al igual que los humanos y los animales. «Es muy natural controlar un organismo mediante el aprendizaje por refuerzo », afirmó Barto.
Con sus contribuciones revolucionarias, Andrew Barto y Richard Sutton no sólo merecen el Premio Turing, sino que también abren la puerta a una nueva era de inteligencia artificial.
[anuncio_2]
Fuente: https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
Kommentar (0)