Vietnam.vn - Nền tảng quảng bá Việt Nam

Des recherches révolutionnaires ouvrent la « boîte noire » du raisonnement de l'IA

Après avoir tapé une commande à l’IA et obtenu les résultats, êtes-vous curieux de savoir comment l’outil a trouvé votre réponse ?

ZNewsZNews30/03/2025

Dario Amodei, PDG d'Anthropic, partage les dernières recherches de l'entreprise. Photo : Fortune .

Des chercheurs de la société d'IA Anthropic affirment avoir réalisé une avancée fondamentale dans la compréhension exacte du fonctionnement des grands modèles de langage (LLM), une avancée qui pourrait avoir des implications importantes pour améliorer la sécurité des futurs modèles d'IA.

Des recherches montrent que les modèles d'IA sont encore plus intelligents qu'on ne le pensait. L'un des principaux problèmes des modèles LLM, qui sont à l'origine des chatbots les plus puissants comme ChatGPT, Gemini et Copilot, est qu'ils se comportent comme une boîte noire.

Nous pouvons saisir des données et obtenir des résultats à partir de chatbots, mais la manière dont ils parviennent à une réponse spécifique reste un mystère, même pour les chercheurs qui les ont créés.

Il est donc difficile de prédire quand un modèle risque d'halluciner ou de produire de faux résultats. Les chercheurs ont également construit des barrières pour empêcher l'IA de répondre à des questions dangereuses, mais ils n'expliquent pas pourquoi certaines barrières sont plus efficaces que d'autres.

Les agents d'IA sont également capables de « piratage de récompenses ». Dans certains cas, les modèles d'IA peuvent mentir aux utilisateurs sur ce qu'ils ont fait ou tentent de faire.

Bien que les modèles d’IA récents soient capables de raisonner et de générer des chaînes de pensée, certaines expériences ont montré qu’ils ne reflètent toujours pas avec précision le processus par lequel le modèle parvient à une réponse.

Fondamentalement, l'outil développé par les chercheurs d'Anthropic est similaire aux scanners IRMf utilisés par les neuroscientifiques pour scanner le cerveau humain. En l'appliquant à leur modèle Claude 3.5 Haiku, Anthropic a pu mieux comprendre le fonctionnement des modèles LLM.

Les chercheurs ont découvert que même si Claude n'était entraîné qu'à prédire le mot suivant dans une phrase, dans certaines tâches, il apprenait à planifier à plus long terme.

Par exemple, lorsqu’on lui demandait d’écrire un poème, Claude trouvait d’abord des mots qui correspondaient au thème et qui pouvaient rimer, puis travaillait à rebours pour écrire des vers complets.

Claude dispose également d'un langage d'IA commun. Bien qu'il soit entraîné à prendre en charge plusieurs langages, Claude pensera d'abord dans ce langage, puis exprimera les résultats dans celui qu'il prend en charge.

De plus, après avoir soumis Claude à un problème difficile, mais en lui suggérant délibérément la mauvaise solution, les chercheurs ont découvert que Claude pouvait mentir sur le fil de sa pensée, en suivant la suggestion pour faire plaisir à l'utilisateur.

Dans d’autres cas, lorsqu’on lui posait une question simple à laquelle le modèle pouvait répondre immédiatement sans raisonnement, Claude fabriquait encore un faux processus de raisonnement.

Josh Baston, chercheur chez Anthropic, a déclaré que même si Claude prétendait avoir fait un calcul, il n'avait rien trouvé qui se passait.

Entre-temps, les experts affirment que des études montrent que parfois les gens ne se comprennent même pas eux-mêmes, mais créent seulement des explications rationnelles pour justifier les décisions prises.

En général, les gens ont tendance à penser de manière similaire. C'est pourquoi les psychologues ont découvert des biais cognitifs communs.

Cependant, les LLM peuvent commettre des erreurs que les humains ne peuvent pas commettre, car la façon dont ils génèrent des réponses est très différente de la façon dont nous effectuons une tâche.

L’équipe Anthropic a mis en œuvre une méthode qui regroupe les neurones en circuits en fonction de leurs caractéristiques au lieu d’analyser chaque neurone individuellement comme le faisaient les techniques précédentes.

Cette approche permet de comprendre les rôles joués par les différents composants et permet aux chercheurs de suivre l’ensemble du processus d’inférence à travers les couches du réseau, a déclaré Baston.

Cette méthode présente également la limitation d'être seulement approximative et de ne pas refléter l'ensemble du processus de traitement de l'information du LLM, en particulier le changement du processus d'attention, qui est très important lorsque le LLM donne des résultats.

De plus, l'identification des circuits neuronaux, même pour des phrases de quelques dizaines de mots seulement, demande des heures à un expert. On ignore encore comment étendre cette technique à l'analyse de phrases plus longues.

Au-delà de ces limites, la capacité du LLM à surveiller le raisonnement interne ouvre de nouvelles opportunités pour contrôler les systèmes d’IA afin de garantir la sécurité et la sûreté.

Dans le même temps, cela peut également aider les chercheurs à développer de nouvelles méthodes de formation, à améliorer les barrières de contrôle de l’IA et à réduire les illusions et les résultats trompeurs.

Source : https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Comment (0)

No data
No data
Scène magique sur la colline de thé « bol renversé » à Phu Tho
Trois îles de la région centrale sont comparées aux Maldives et attirent les touristes en été.
Admirez la ville côtière scintillante de Gia Lai à Quy Nhon la nuit
Image de champs en terrasses à Phu Tho, en pente douce, lumineux et beaux comme des miroirs avant la saison des plantations
L'usine Z121 est prête pour la soirée finale du feu d'artifice international
Un célèbre magazine de voyage fait l'éloge de la grotte de Son Doong comme étant « la plus magnifique de la planète »
Une grotte mystérieuse attire les touristes occidentaux, comparée à la « grotte de Phong Nha » à Thanh Hoa
Découvrez la beauté poétique de la baie de Vinh Hy
Comment est transformé le thé le plus cher de Hanoi, dont le prix dépasse les 10 millions de VND/kg ?
Goût de la région fluviale

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit