Plus le modèle est fort, plus la « pensée » est faible ?
Dans un rapport récemment publié, les chercheurs d'Apple ont évalué les performances des grands modèles de raisonnement (LRM) lorsqu'ils traitent des problèmes logiques de difficulté croissante, tels que la tour de Hanoï ou le problème de la traversée de la rivière .
Les résultats ont été choquants : face à des problèmes extrêmement complexes, la précision des modèles d’IA avancés a non seulement diminué, mais s’est « complètement effondrée ».
Ce qui est plus inquiétant, c’est qu’avant la baisse des performances, les modèles commencent à… réduire leur effort de raisonnement, un comportement contre-intuitif qui devrait nécessiter plus de réflexion lorsque le problème est plus difficile.
Dans de nombreux cas, même avec l'algorithme approprié, les modèles ne parviennent pas à produire de solution. Cela montre les limites profondes de leur capacité à s'adapter et à appliquer des règles à de nouveaux environnements.
Le défi de la « théorie générale »
Réagissant à l'étude, l'universitaire américain Gary Marcus, l'une des voix sceptiques quant aux véritables capacités de l'IA, a qualifié les conclusions d'Apple de « tout à fait dévastatrices ».
« Quiconque pense que les grands modèles de langage (LLM) sont un chemin direct vers l’AGI se trompe », a-t-il écrit dans sa newsletter personnelle Substack.
Partageant le même point de vue, M. Andrew Rogoyski, expert à l'Institute for Human-Centered AI (Université de Surrey, Royaume-Uni), a déclaré que cette découverte indique la possibilité que l'industrie technologique entre dans une « impasse » : « Lorsque les modèles ne fonctionnent bien qu'avec des problèmes simples et moyens, mais échouent complètement lorsque la difficulté augmente, il est clair qu'il y a un problème avec l'approche actuelle. »
Apple a notamment souligné le manque de « raisonnement général », c’est-à-dire la capacité d’étendre la compréhension d’une situation spécifique à des situations similaires.
Lorsqu’ils ne parviennent pas à transférer les connaissances de la manière dont les humains le font habituellement, les modèles actuels sont enclins à « l’apprentissage par cœur » : ils sont forts dans la répétition de modèles, mais faibles dans la pensée logique ou déductive.
En fait, l’étude a révélé que les grands modèles théoriques gaspillent des ressources informatiques en résolvant correctement et à plusieurs reprises des problèmes simples, mais en choisissant la mauvaise solution dès le départ pour des problèmes légèrement plus complexes.
Le rapport a testé une série de modèles phares, dont o3 d'OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking et DeepSeek-R1. Anthropic, Google et DeepSeek n'ont pas répondu aux demandes de commentaires, tandis qu'OpenAI s'est refusé à tout commentaire.
Les recherches d'Apple ne remettent pas en cause les avancées de l'IA dans les domaines du langage, de la vision ou du big data. Elles mettent cependant en lumière un point faible souvent négligé : la capacité à raisonner de manière pertinente, pourtant essentielle à la véritable intelligence.
Source : https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
Comment (0)