Les chatbots IA deviennent

En avril, un robot IA qui gère le support technique de Cursor, un outil émergent pour les programmeurs, a informé certains clients d'un changement dans la politique de l'entreprise, indiquant spécifiquement qu'ils n'étaient plus autorisés à utiliser Cursor sur plus d'un ordinateur.

Les clients ont exprimé leur colère sur les forums et les réseaux sociaux. Certains ont même supprimé leur compte Cursor. Mais d'autres ont été encore plus furieux lorsqu'ils ont réalisé ce qui s'était passé : le robot IA avait signalé un changement de politique inexistant.

« Nous n'avons pas cette politique. Vous pouvez bien sûr utiliser Cursor sur plusieurs machines. Malheureusement, il s'agissait d'une réponse incorrecte d'un robot piloté par l'IA », a écrit Michael Truell, PDG et cofondateur de l'entreprise, dans un message sur Reddit.

Les fausses informations sont hors de contrôle.

Plus de deux ans après le lancement de ChatGPT, les entreprises technologiques, les employés de bureau et les consommateurs de tous les jours utilisent des robots IA pour un large éventail de tâches avec une fréquence croissante.

Pourtant, il n'existe aucun moyen de garantir que ces systèmes produisent des informations exactes. Paradoxalement, les nouvelles technologies les plus puissantes, appelées systèmes d'« inférence » développés par des entreprises comme OpenAI, Google et DeepSeek, commettent davantage d'erreurs.

Conversation absurde sur ChatGPT où un utilisateur demande si les chiens peuvent manger des céréales. Photo : Reddit.

Si les compétences mathématiques se sont considérablement améliorées, la capacité des grands modèles de langage (LLM) à saisir la vérité est devenue plus fragile. Étonnamment, même les ingénieurs n'en comprennent absolument pas la raison.

Selon le New York Times , les chatbots IA actuels s'appuient sur des systèmes mathématiques complexes pour acquérir des compétences en analysant d'énormes quantités de données numériques. Cependant, ils ne peuvent pas déterminer ce qui est bien ou mal.

De là, apparaît l'état d'« hallucination », ou auto-fabrication d'informations. En fait, selon les recherches, les LLM de dernière génération souffrent même davantage d'« hallucination » que certains modèles plus anciens.

Plus précisément, dans le dernier rapport, OpenAI a découvert que le modèle o3 « hallucinait » en répondant à 33 % des questions sur PersonQA, la norme interne de l'entreprise pour mesurer la précision des connaissances du modèle sur les humains.

À titre de comparaison, ce taux est deux fois supérieur à celui des précédents modèles de raisonnement d'OpenAI, o1 et o3-mini, qui souffraient respectivement de 16 % et 14,8 % du temps. Le modèle o4-mini, quant à lui, obtenait des résultats encore plus mauvais sur PersonQA, avec 48 % de cas d'hallucinations.

Plus inquiétant encore, le « père de ChatGPT » ignore précisément pourquoi cela se produit. Plus précisément, dans le rapport technique sur o3 et o4-mini, OpenAI écrit que « des recherches supplémentaires sont nécessaires pour comprendre pourquoi l'illusion s'aggrave » à mesure que les modèles de raisonnement évoluent.

Les modèles o3 et o4-mini ont obtenu de meilleurs résultats dans certains domaines, notamment en programmation et en mathématiques. Cependant, comme ils devaient « formuler davantage d'affirmations que généraliser », les deux modèles ont eu du mal à produire « davantage d'affirmations correctes, mais aussi davantage d'affirmations incorrectes ».

« Cela ne disparaîtra jamais »

Au lieu d'un ensemble strict de règles déterminées par des ingénieurs humains, les systèmes LLM utilisent les probabilités mathématiques pour deviner la meilleure réponse. Ils commettent donc systématiquement des erreurs.

« Malgré tous nos efforts, les modèles d'IA resteront toujours illusoires. Cela ne disparaîtra jamais », a déclaré Amr Awadallah, ancien cadre de Google.

Selon IBM, les hallucinations surviennent lorsqu'un grand modèle de langage (LLM) — généralement un chatbot ou un outil de vision par ordinateur — reçoit des modèles de données qui n'existent pas ou sont méconnaissables pour les humains, ce qui donne des résultats dénués de sens ou trompeurs. Photo : iStock.

Dans un article détaillé sur les expériences, OpenAI a déclaré qu'il avait besoin de plus de recherches pour comprendre les raisons de ces résultats.

Étant donné que les systèmes d’IA apprennent à partir de quantités de données bien plus importantes que ce que les humains peuvent comprendre, il peut être difficile de déterminer pourquoi ils se comportent de certaines manières, affirment les experts.

« Les hallucinations sont intrinsèquement plus fréquentes dans les modèles d'inférence, même si nous travaillons activement à réduire leur incidence dans les modèles o3 et o4-mini. Nous continuerons à travailler sur les hallucinations dans tous les modèles afin d'améliorer la précision et la fiabilité », a déclaré Gaby Raila, porte-parole d'OpenAI.

Des tests effectués par plusieurs sociétés et chercheurs indépendants montrent que le taux d’illusion augmente également pour les modèles d’inférence de sociétés comme Google ou DeepSeek.

Depuis fin 2023, Vectara, l'entreprise d'Awadallah, analyse la fréquence à laquelle les chatbots diffusent de fausses informations. L'entreprise a demandé aux systèmes d'effectuer une tâche simple et facilement vérifiable : résumer des articles de presse spécifiques. Malgré cela, les chatbots ont persisté à inventer des informations.

Plus précisément, les recherches initiales de Vectara ont estimé que dans ce scénario, les chatbots fabriquaient des informations au moins 3 % du temps, et parfois jusqu'à 27 %.

Au cours des dix-huit derniers mois, des entreprises comme OpenAI et Google ont réduit ces chiffres à environ 1 ou 2 %. D'autres, comme la startup Anthropic de San Francisco, tournent autour de 4 %.

Cependant, le taux d'hallucinations dans ce test a continué d'augmenter pour les systèmes d'inférence. La fréquence des hallucinations a augmenté de 14,3 % pour le système d'inférence R1 de DeepSeek, tandis que celle d'o3 d'OpenAI a augmenté de 6,8 %.

Un autre problème est que les modèles d’inférence sont conçus pour passer du temps à « réfléchir » à des problèmes complexes, avant de proposer une réponse finale.

Apple a inséré une invite visant à empêcher l'IA de fabriquer des informations dans la première version de test de macOS 15.1. Photo : Reddit/devanxd2000.

L'inconvénient, cependant, est qu'à mesure que le modèle d'IA tente de résoudre le problème étape par étape, il devient plus sujet aux hallucinations à chaque étape. Plus important encore, les erreurs peuvent s'accumuler à mesure que le modèle passe plus de temps à réfléchir.

Les derniers bots montrent aux utilisateurs chaque étape, ce qui leur permet également de visualiser chaque erreur. Les chercheurs ont également constaté que, dans de nombreux cas, le processus de réflexion d'un chatbot n'a aucun lien avec la réponse finale qu'il fournit.

« Ce que le système dit raisonner n’est pas nécessairement ce qu’il pense réellement », explique Aryo Pradipta Gema, chercheur en IA à l’Université d’Édimbourg et contributeur d’Anthropic.

Source : https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html