
En avril, un robot IA qui gère le support technique de Cursor, un outil émergent pour les programmeurs, a informé certains clients d'un changement dans la politique de l'entreprise. Plus précisément, l’avis stipule qu’ils ne sont plus autorisés à utiliser Cursor sur plus d’un ordinateur.
Sur les forums et les réseaux sociaux, les clients ont affiché leur colère. Certains ont même annulé leur compte Cursor. Cependant, certains étaient encore plus furieux lorsqu'ils ont réalisé ce qui s'était passé : le robot IA avait annoncé un changement de politique qui n'existait pas.
« Nous n'avons pas cette politique. Vous pouvez bien sûr utiliser Cursor sur plusieurs machines. Malheureusement, il s'agissait d'une réponse incorrecte d'un robot piloté par l'IA », a écrit Michael Truell, PDG et cofondateur de l'entreprise, dans un message sur Reddit.
Les fausses informations sont hors de contrôle.
Plus de deux ans après le lancement de ChatGPT, les entreprises technologiques, les employés de bureau et les consommateurs de tous les jours utilisent des robots IA pour un large éventail de tâches avec une fréquence croissante.
Cependant, il n’existe aucun moyen de garantir que ces systèmes produisent des informations exactes. Il existe un paradoxe : les nouvelles technologies les plus puissantes, les systèmes dits « d’inférence » d’entreprises comme OpenAI, Google et DeepSeek, commettent davantage d’erreurs.
![]() |
Dialogue ChatGPT absurde où l'utilisateur demande si les chiens doivent manger des céréales. Photo : Reddit. |
Alors que les compétences mathématiques se sont considérablement améliorées, la capacité des grands modèles linguistiques (LLM) à saisir la vérité est devenue plus fragile. Il est remarquable que même les ingénieurs eux-mêmes n’en comprennent absolument pas la raison.
Selon le New York Times , les chatbots IA d’aujourd’hui s’appuient sur des systèmes mathématiques complexes pour acquérir des compétences en analysant d’énormes quantités de données numériques. Cependant, ils ne peuvent pas décider ce qui est bien et ce qui est mal.
De là, apparaît l'état d'« hallucination » ou d'information auto-créée. En fait, selon les recherches, les derniers LLM sont encore plus « illusoires » que certains modèles plus anciens.
Plus précisément, dans le dernier rapport, OpenAI a découvert que le modèle o3 « hallucinait » en répondant à 33 % des questions sur PersonQA, la norme interne de l'entreprise pour mesurer la précision des connaissances du modèle sur les humains.
À titre de comparaison, il s’agit du double du taux d’« hallucination » des modèles de raisonnement précédents d’OpenAI, o1 et o3-mini, qui étaient respectivement de 16 % et 14,8 %. Pendant ce temps, le modèle o4-mini a fait encore pire sur PersonQA, connaissant des « hallucinations » pendant 48 % de la durée du test.
Plus inquiétant encore, le « père de ChatGPT » ne sait pas réellement pourquoi cela se produit. Plus précisément, dans le rapport technique sur o3 et o4-mini, OpenAI écrit que « des recherches supplémentaires sont nécessaires pour comprendre pourquoi « l'illusion » s'aggrave » à mesure que les modèles de raisonnement sont mis à l'échelle.
Les modèles o3 et o4-mini sont plus performants dans certains domaines, notamment la programmation et les tâches liées aux mathématiques. Cependant, en raison de la nécessité de « faire plus d’affirmations que de généraliser », les deux modèles souffrent du problème de produire des résultats qui incluent « des affirmations plus précises, mais aussi des affirmations plus inexactes ».
« Cela ne disparaîtra jamais »
Au lieu d’un ensemble strict de règles déterminées par des ingénieurs humains, les systèmes LLM utilisent la probabilité mathématique pour deviner la meilleure réponse. Ils font donc toujours certaines erreurs.
« Malgré tous nos efforts, les modèles d'IA resteront toujours illusoires. Cela ne disparaîtra jamais », a déclaré Amr Awadallah, ancien cadre de Google.
![]() |
Selon IBM, les hallucinations surviennent lorsqu'un grand modèle de langage (LLM) — généralement un chatbot ou un outil de vision par ordinateur — reçoit des modèles de données qui n'existent pas ou qui sont méconnaissables pour les humains, ce qui donne des résultats dénués de sens ou trompeurs. Photo : iStock. |
Dans un article détaillé sur les expériences, OpenAI a déclaré qu'il avait besoin de plus de recherches pour comprendre les raisons de ces résultats.
Étant donné que les systèmes d’IA apprennent à partir de quantités de données bien plus importantes que ce que les humains peuvent comprendre, il peut être difficile de déterminer pourquoi ils se comportent de certaines manières, affirment les experts.
« Les hallucinations sont intrinsèquement plus fréquentes dans les modèles d'inférence, même si nous travaillons activement à réduire leur incidence dans les modèles o3 et o4-mini. Nous continuerons à travailler sur les hallucinations dans tous les modèles afin d'améliorer la précision et la fiabilité », a déclaré Gaby Raila, porte-parole d'OpenAI.
Des tests effectués par plusieurs sociétés et chercheurs indépendants montrent que le taux d’illusion augmente également pour les modèles d’inférence de sociétés comme Google ou DeepSeek.
Depuis fin 2023, la société d'Awadallah, Vectara, suit la fréquence à laquelle les chatbots diffusent de la désinformation. L'entreprise a demandé à ces systèmes d'effectuer une tâche simple et facilement vérifiable consistant à résumer des articles d'actualité spécifiques. Même dans ce cas, les chatbots persistent à fabriquer des informations.
Plus précisément, les recherches initiales de Vectara ont estimé que dans ce scénario, les chatbots fabriquaient des informations au moins 3 % du temps, et parfois jusqu'à 27 %.
Au cours de la dernière année et demie, des entreprises comme OpenAI et Google ont réduit ces chiffres à environ 1 ou 2 %. D'autres, comme la start-up de San Francisco Anthropic, tournent autour de 4 %.
Cependant, le taux d’hallucinations dans ce test a continué d’augmenter pour les systèmes d’inférence. La fréquence des hallucinations du système d'inférence R1 de DeepSeek a augmenté de 14,3 %, tandis que celle de l'o3 d'OpenAI a augmenté de 6,8 %.
Un autre problème est que les modèles d’inférence sont conçus pour passer du temps à « réfléchir » à des problèmes complexes, avant de proposer une réponse finale.
![]() |
Une invite visant à empêcher l’IA de fabriquer des informations a été insérée par Apple dans la première version de test de macOS 15.1. Photo : Reddit/devanxd2000. |
Cependant, l’inconvénient est qu’en essayant de résoudre le problème étape par étape, le modèle d’IA risque de plus en plus d’halluciner à chaque étape. Plus important encore, les erreurs peuvent s’accumuler à mesure que le modèle passe plus de temps à réfléchir.
Les derniers robots montrent chaque étape à l'utilisateur, ce qui signifie que l'utilisateur peut également voir chaque erreur. Les chercheurs ont également constaté que dans de nombreux cas, l’étape de réflexion affichée par un chatbot n’était en réalité pas liée à la réponse finale qu’il donnait.
« Ce que le système dit raisonner n’est pas nécessairement ce qu’il pense réellement », explique Aryo Pradipta Gema, chercheur en IA à l’Université d’Édimbourg et contributeur d’Anthropic.
Source : https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
Comment (0)