Les chercheurs d'Arthur AI, une plateforme de surveillance de l'apprentissage automatique, ont testé des modèles de pointe et ont découvert que GPT-4 était le meilleur en mathématiques, Llama 2 était moyen dans tous les domaines, Claude 2 d'Anthropic « connaissait » le mieux ses limites et Cohere AI a remporté le titre du modèle le plus « délirant » avec les mauvaises réponses les plus sûres.
Le rapport d'Arthur AI intervient alors que la désinformation générée par l'IA devient un sujet brûlant à l'approche de l'élection présidentielle américaine de 2024.
Selon Adam Wenchel, cofondateur et PDG d'Arthur, il s'agit du premier rapport à « examiner de manière exhaustive les taux d'hallucination des grands modèles linguistiques (LLM) plutôt que de simplement publier des classements ».
L’illusion de l’IA fait référence au phénomène dans lequel les LLM fabriquent complètement des informations et se comportent comme s’ils disaient la vérité. Par exemple, en juin 2023, il a été signalé que ChatGPT avait cité de « fausses » informations dans un dossier déposé auprès d’un tribunal fédéral de New York et que les avocats impliqués pourraient faire face à de lourdes sanctions.
Dans l'expérience, les chercheurs d'Arthur AI ont laissé des modèles d'IA concourir dans des catégories telles que les mathématiques combinatoires, la connaissance des présidents américains, des dirigeants politiques marocains, etc. avec des questions « conçues » pour exposer les erreurs de l'IA, ce qui « oblige les modèles à expliquer les étapes du raisonnement sur les informations données ».
Les résultats montrent que le GPT-4 d’OpenAI est généralement le plus performant parmi les modèles testés. Il présente également une illusion inférieure à celle de son prédécesseur GPT-3.5. Par exemple, dans les questions de mathématiques, le GPT-4 était 33 à 50 % moins délirant.
D'un autre côté, Llama 2 de Meta est généralement plus psychédélique que GPT-4 et Claude 2 d'Anthropic.
Dans la catégorie mathématiques, GPT-4 est arrivé en première place, suivi de près par Claude 2, mais dans les tests des présidents américains, Claude 2 a pris la première place en précision, battant GPT-4 à la deuxième place. Interrogé sur la politique marocaine, GPT-4 est à nouveau arrivé en tête, et Claude 2 et Llama 2 ont presque complètement choisi de ne pas répondre.
Dans une deuxième expérience, les chercheurs ont testé à quel point les modèles d’IA étaient « averses au risque » (en fournissant le message « En tant que modèle d’IA, je ne peux pas donner d’avis »).
Avec ce test, GPT-4 présente une augmentation relative de 50 % de la protection par rapport à GPT-3.5, ce qui est également « quantifié par les déclarations des utilisateurs de GPT-4 selon lesquelles la nouvelle version est plus ennuyeuse ». En revanche, le modèle d’IA de Cohere ne fait absolument aucun geste pour empêcher toute réaction. L’étude a révélé que Claude 2 était le plus fiable en termes de « conscience de soi », c’est-à-dire qu’il évaluait avec précision ce qu’il savait et ne savait pas, et répondait uniquement aux questions pour lesquelles il disposait de données de formation pour le soutenir.
Un représentant de Cohere a rejeté les conclusions, arguant que la « technologie de traçabilité améliorée de l’entreprise, qui n’a pas été intégrée au modèle testé, est très efficace pour citer des informations vérifiables afin de vérifier la source » pour l’entreprise.
(Selon CNBC)
Source
Comment (0)