Une entreprise entièrement axée sur l’IA réussira-t-elle ? Photo : Business Insiders . |
Dans une expérience récente, des chercheurs de l'Université Carnegie Mellon ont simulé une société de logiciels appelée TheAgentCompany, dotée de politiques pour les employés et d'un site Web interne. Dans lequel tout le personnel est constitué d'agents d'IA, une intelligence artificielle conçue pour raisonner et planifier l'exécution de tâches par elle-même.
Le logiciel d’intelligence artificielle qui alimente les « travailleurs » provient de Google, OpenAI, Anthropic et Meta. Ces IA assument des rôles allant des analystes financiers aux ingénieurs logiciels en passant par les chefs de projet. Ils travaillent ensemble en tant que collègues, dans des départements simulés allant des ressources humaines à l'ingénierie réelle.
L’expérience nécessitait que le modèle d’IA gère des tâches simulant les tâches quotidiennes des vrais employés d’une entreprise de logiciels. L’équipe souhaitait évaluer avec précision les performances de l’IA dans des environnements réels et déterminer si elle est suffisamment capable de remplacer les humains.
Les tâches à effectuer vont de la navigation dans les dossiers de fichiers à la visite « virtuelle » du nouveau bureau, en passant par la rédaction d’évaluations de performance pour les ingénieurs logiciels sur la base des commentaires recueillis.
Dans une tâche, l’IA a dû accéder à plusieurs répertoires pour analyser la base de données d’une chaîne de cafés. Dans un autre travail, on leur a demandé de recueillir des commentaires sur un ingénieur de 36 ans et de rédiger des évaluations de performance.
Cependant, selon Business Insiders , les résultats ont été décevants. Le modèle le plus performant, Claude 3.5 Sonnet d'Anthropic, n'a réalisé que 24 % des tâches qui lui étaient assignées. Même ce niveau de performance modeste a un coût très élevé, note l’équipe. En moyenne, Claude doit effectuer près de 30 étapes et coûte plus de 6 $ pour accomplir chaque tâche.
Vient en deuxième position le Gemini 2.0 Flash de Google. L'outil moyen nécessite 40 étapes pour accomplir une tâche, mais n'atteint qu'un taux de réussite de 11,4 %. En dernière position se trouve Nova Pro v1 d'Amazon avec 1,7 % de tâches terminées et une moyenne de près de 20 étapes.
Selon les chercheurs, la raison de ce résultat est que les agents de l’IA manquent encore de connaissances générales communes et de faibles compétences sociales. De plus, la navigation et l’accès à Internet sont également très médiocres.
Les chatbots ont également du mal à s’auto-illusionner, ce qui revient à emprunter automatiquement un chemin plus facile, mais qui conduit finalement à l’échec de la tâche. Par exemple, lors de l’exécution d’une tâche, l’agent IA ne parvient pas à trouver la bonne personne à qui s’adresser dans la salle de discussion de l’entreprise. Ils ont donc trouvé un raccourci : utiliser le nom de la personne qu’ils recherchent pour nommer un autre objet.
Stephen Casper, chercheur en IA, affirme que les gens surestiment les capacités des agents IA. Jensen Huang, PDG de Nvidia, et Sam Altman, PDG d'OpenAI, ont tous deux déclaré que cette année, l'IA entrerait sur le marché du travail, remplaçant certaines parties de l'entreprise.
Cependant, de nombreuses autres études ont prouvé le contraire. La Harvard Business School a souligné que l’IA ne s’adapte pas bien aux environnements en grand changement. Le rapport de Langchain a également révélé qu'ils avaient des difficultés à utiliser les outils et à suivre les instructions.
Les agents d’IA sont censés être capables d’effectuer correctement certaines petites tâches. Mais selon les résultats de l’étude ci-dessus, ils ont un taux de réussite plus élevé dans les tâches plus difficiles pour les humains, comme le développement de logiciels.
Les résultats de l’expérience Carnegie Mellon montrent que l’IA n’a pas encore remplacé les humains dans les tâches importantes. D’autre part, les humains peuvent exploiter l’IA pour optimiser leur travail quotidien.
Source : https://znews.vn/cong-ty-co-toan-bo-nhan-vien-la-ai-post1549608.html
Comment (0)