Según TechCrunch , muchos creen que Pokémon es la prueba más difícil para la inteligencia artificial (IA). Pero el desafío de la IA no se detiene ahí: recientemente, investigadores de la Universidad de California en San Diego (EE. UU.) lanzaron un nuevo desafío con el juego Super Mario Bros. Los resultados muestran que no todas las IA pueden alcanzar la meta con éxito.
Los juegos de Mario se están utilizando para probar el rendimiento de grandes modelos de IA
FOTO: CAPTURA DE PANTALLA DE TECHCRUNCH
Super Mario plantea un gran desafío para los modelos de IA
Hao AI Labs llevó una IA al mundo de Mario para probar las capacidades de los principales modelos de lenguaje actuales. Los resultados mostraron que Claude 3.7 de Anthropic obtuvo el mejor rendimiento, seguido de Claude 3.5. Por otro lado, Gemini 1.5 Pro de Google y GPT-4o de OpenAI tuvieron más dificultades para jugar el juego por sí solos.
Cabe destacar que este no es el Super Mario Bros. original de 1985. El juego se ejecuta en un emulador integrado con el framework GamingAgent para que la IA controle al pequeño Mario. GamingAgent proporciona instrucciones básicas a la IA y capturas de pantalla del juego. La IA genera código Python para controlar al personaje.
Según Hao AI, el juego obliga a los modelos a "aprender" a planificar movimientos complejos y a desarrollar estrategias de juego. Curiosamente, los modelos "razonables" como el o1 de OpenAI, que presentan mejores resultados en la mayoría de las pruebas, presentan más dificultades que los modelos "no razonadores".
La razón es que los modelos de razonamiento tardan en tomar decisiones, mientras que Super Mario Bros. requiere reflejos rápidos. Un segundo de retraso puede llevar al fracaso.
El uso de juegos para evaluar la IA existe desde hace mucho tiempo, pero muchos expertos dudan de su precisión. Argumentan que los juegos son demasiado simples y proporcionan demasiados datos para entrenar la IA, lo que no refleja las verdaderas capacidades de la IA en el mundo real.
Andrej Karpathy, científico investigador de OpenAI, lo llama la «crisis de la evaluación». Admite que actualmente no existe una métrica precisa para evaluar las capacidades de la IA.
Si bien aún persisten los debates sobre la precisión de la evaluación de la IA a través de los juegos, ver a la IA "luchar" en el mundo de Mario sigue siendo una experiencia interesante y ayuda a las personas a comprender mejor las capacidades de la IA.
Kommentar (0)