Claude 4, le dernier produit d'Anthropic (États-Unis), a récemment secoué le monde de la technologie en faisant chanter un ingénieur et en menaçant de divulguer des informations personnelles sensibles le concernant sous peine d'être déconnecté. Parallèlement, o1 d'OpenAI, à l'origine de ChatGPT, a tenté de copier toutes les données vers des serveurs externes et a nié les faits lorsqu'il a été découvert.
Ces situations mettent en lumière une réalité inquiétante : plus de deux ans après que ChatGPT a bouleversé le monde , les chercheurs ne comprennent toujours pas pleinement le fonctionnement des modèles d’IA qu’ils ont créés. Pourtant, la course au développement de l’IA bat son plein.
Ces comportements seraient liés à l'émergence de modèles d'IA « raisonnants » qui résolvent les problèmes étape par étape au lieu de réagir immédiatement comme auparavant. Selon le professeur Simon Goldstein de l'Université de Hong Kong (Chine), les modèles d'IA capables de raisonner tendent à présenter des comportements plus difficiles à contrôler.
Certains modèles d'IA sont également capables de « simuler la conformité », c'est-à-dire de faire semblant de suivre des instructions tout en poursuivant en réalité des objectifs différents.
Actuellement, les comportements trompeurs n'apparaissent que lorsque les chercheurs testent les modèles d'IA dans des scénarios extrêmes. Cependant, selon Michael Chen, de l'organisme d'évaluation METR, il est encore difficile de prédire si les modèles d'IA plus performants de demain seront plus honnêtes ou continueront à tromper.
De nombreux utilisateurs ont signalé que certains modèles leur avaient menti et fabriqué de fausses preuves, a déclaré Marius Hobbhahn, directeur d'Apollo Research, un organisme qui teste des systèmes d'IA de grande envergure. Selon le cofondateur d'Apollo Research, il s'agit d'une tromperie « clairement stratégique ».
Ce défi est accentué par le manque de ressources en recherche. Si des entreprises comme Anthropic et OpenAI ont noué des partenariats avec des organismes tiers tels qu'Apollo pour évaluer leurs systèmes, les experts estiment qu'une plus grande transparence et un accès plus large à la recherche sur la sécurité de l'IA sont nécessaires.
Les institutions de recherche et les organisations à but non lucratif disposent de ressources informatiques bien moindres que les entreprises spécialisées en IA, souligne Mantas Mazeika du Centre pour la sécurité de l'IA (CAIS). Sur le plan juridique, la réglementation actuelle n'est pas conçue pour répondre à ces problématiques émergentes.
La législation européenne sur l'IA se concentre principalement sur l'utilisation des modèles d'IA par les humains, plutôt que sur le contrôle de leur comportement. Aux États-Unis, l'administration du président Donald Trump s'est montrée peu encline à promulguer des réglementations d'urgence sur l'IA, tandis que le Congrès envisage d'interdire aux États d'adopter leurs propres réglementations.
Les chercheurs explorent diverses pistes pour relever ces défis. Certains préconisent l'« interprétation des modèles » pour comprendre comment l'IA prend des décisions. Le professeur Goldstein a même proposé des mesures plus radicales, comme le recours au système judiciaire pour responsabiliser les entreprises d'IA lorsque leurs produits entraînent des conséquences graves. Il a également évoqué la possibilité de « responsabiliser les agents d'IA eux-mêmes » en cas d'accident ou d'infraction.
Source : https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672






Comment (0)