Selon TechCrunch , beaucoup pensent que Pokémon est le test le plus difficile pour l'intelligence artificielle (IA). Mais le défi de l'IA ne s'arrête pas là : récemment, des chercheurs de l'Université de Californie à San Diego (États-Unis) ont lancé un nouveau défi avec le jeu Super Mario Bros. Les résultats montrent que toutes les IA ne parviennent pas à « atteindre la ligne d'arrivée ».
Les jeux Mario sont utilisés pour tester les performances de grands modèles d'IA
PHOTO : CAPTURE D'ÉCRAN TECHCRUNCH
Super Mario représente un énorme défi pour les modèles d'IA
Hao AI Labs a utilisé une IA pour tester les capacités des principaux modèles de langage actuels. Les résultats ont montré que Claude 3.7 d'Anthropic était le plus performant, suivi de Claude 3.5. En revanche, Gemini 1.5 Pro de Google et GPT-4o d'OpenAI ont eu plus de difficultés à jouer seuls.
Il est important de noter qu'il ne s'agit pas du Super Mario Bros. original de 1985. Le jeu fonctionne sur un émulateur, intégré au framework GamingAgent, permettant à l'IA de contrôler le petit Mario. GamingAgent fournit des instructions de base à l'IA et des captures d'écran du jeu. L'IA génère ensuite du code Python pour contrôler le personnage.
Selon Hao AI, le jeu oblige les modèles à « apprendre » à planifier des mouvements complexes et à élaborer des stratégies de jeu. Il est intéressant de noter que les modèles « rationnels » comme o1 d'OpenAI, plus performants dans la plupart des tests, rencontrent plus de difficultés que les modèles « non raisonnés ».
La raison invoquée est que les modèles de raisonnement prennent du temps pour prendre des décisions, tandis que Super Mario Bros. exige des réflexes rapides. Une seconde de retard peut mener à l'échec.
L'utilisation des jeux pour évaluer l'IA existe depuis longtemps, mais de nombreux experts doutent de la précision de cette méthode. Ils affirment que les jeux sont trop simples et fournissent trop de données pour entraîner l'IA, ne reflétant pas les véritables capacités de l'IA dans le monde réel.
Andrej Karpathy, chercheur scientifique chez OpenAI, appelle cela la « crise de l’évaluation ». Il admet qu’il n’existe actuellement aucune mesure précise pour évaluer les capacités de l’IA.
Bien que les débats sur la précision de l'évaluation de l'IA à travers les jeux persistent, voir l'IA « se battre » dans le monde de Mario reste une expérience intéressante et aide les gens à mieux comprendre les capacités de l'IA.
Comment (0)