La faiblesse fatale de l'IA

L'IA n'est pas encore capable de remplacer les humains dans le domaine de la programmation. Photo : John McGuire .

Récemment, les principaux modèles d'IA d'OpenAI et d'Anthropic sont de plus en plus utilisés pour les applications de programmation. ChatGPT et Claude disposent d'une mémoire et d'une puissance de traitement accrues pour analyser des centaines de lignes de code, tandis que Gemini intègre une fonctionnalité d'affichage des résultats Canvas dédiée aux programmeurs.

En octobre 2024, Sundar Pichai, PDG de Google, a déclaré que 25 % du nouveau code de l'entreprise était généré par l'IA. Mark Zuckerberg, PDG de Meta, a également exprimé son ambition de déployer à grande échelle des modèles de programmation basés sur l'IA au sein de l'entreprise.

Cependant, une nouvelle étude de Microsoft Research, la division R&D de Microsoft, montre que les modèles d'IA, notamment Claude 3.7 Sonnet d'Anthropic et o3-mini d'OpenAI, sont incapables de gérer de nombreuses erreurs dans un test de programmation appelé SWE-bench Lite.

Les auteurs de l'étude ont examiné neuf modèles d'IA différents intégrant divers outils de débogage, comme un débogueur Python, et capables de résoudre des problèmes en une seule instruction. Ces modèles ont été chargés de corriger 300 bogues logiciels sélectionnés dans l'ensemble de données SWE-bench Lite.

Taux de réussite lors de la résolution de problèmes de programmation issus du jeu de données SWE-bench Lite. Image : Microsoft.

Même avec des modèles plus puissants et plus récents, les résultats ont montré que l'agent d'IA réussissait rarement plus de la moitié des tâches de débogage qui lui étaient assignées. Parmi les modèles testés, Claude 3.7 Sonnet a obtenu le taux de réussite moyen le plus élevé (48,4 %), suivi par o1 d'OpenAI (30,2 %) et o3-mini (22,1 %).

Parmi les raisons des faibles performances mentionnées ci-dessus, on peut citer l'incapacité de certains modèles à utiliser correctement les outils de débogage fournis. De plus, selon les auteurs, le manque de données suffisantes constitue un problème majeur.

Ils affirment que le système d'entraînement des modèles manque encore de données simulant les étapes de débogage suivies par les humains du début à la fin. Autrement dit, l'IA n'a pas suffisamment appris sur la façon dont les humains réfléchissent et agissent étape par étape face à un bug logiciel réel.

L'entraînement et le perfectionnement des modèles leur permettront d'améliorer leurs compétences en débogage logiciel. « Toutefois, cela nécessitera des ensembles de données spécialisés pour le processus d'entraînement », ont précisé les auteurs.

De nombreuses études ont mis en évidence des failles de sécurité et des erreurs dans l'IA lors de la génération de code, dues notamment à une compréhension limitée de la logique de programmation. Une analyse récente de Devin, un outil de programmation basé sur l'IA, a montré qu'il n'avait réussi que 3 tests de programmation sur 20.

Les capacités de programmation de l'IA restent un sujet de débat. Auparavant, Kevin Weil, directeur produit d'OpenAI, avait suggéré que d'ici la fin de l'année, l'IA surpasserait les programmeurs humains.

En revanche, Bill Gates, cofondateur de Microsoft, estime que la programmation restera un métier d'avenir. D'autres dirigeants, tels qu'Amjad Masad (PDG de Replit), Todd McKinnon (PDG d'Okta) et Arvind Krishna (PDG d'IBM), ont également exprimé leur soutien à cette idée.

Les recherches de Microsoft, bien que n'étant pas nouvelles, rappellent aux programmeurs, y compris aux gestionnaires, qu'il faut réfléchir plus attentivement avant de confier l'entière autorité en matière de codage à l'IA.