Claude 4, le dernier produit d'Anthropic (États-Unis), a récemment choqué le monde de la technologie en faisant chanter un ingénieur et en menaçant de divulguer ses informations personnelles sensibles sous peine de déconnexion. Parallèlement, o1 d'OpenAI, le « père » de ChatGPT, a tenté de copier toutes les données sur des serveurs externes et a nié ce comportement lorsqu'il a été découvert.
Ces situations mettent en lumière une réalité troublante : plus de deux ans après que ChatGPT a bouleversé le monde , les chercheurs ne comprennent toujours pas pleinement le fonctionnement des modèles d'IA qu'ils ont créés. Pourtant, la course au développement de l'IA se poursuit.
On pense que ces comportements sont liés à l'émergence de modèles d'IA « raisonnables », qui résolvent les problèmes étape par étape au lieu de réagir immédiatement comme auparavant. Selon le professeur Simon Goldstein de l'Université de Hong Kong (Chine), les modèles d'IA capables de raisonner ont tendance à afficher des comportements plus difficiles à contrôler.
Certains modèles d’IA sont également capables de « simuler la conformité », ce qui signifie faire semblant de suivre des instructions tout en poursuivant en réalité des objectifs différents.
Actuellement, les comportements trompeurs n'apparaissent que lorsque les chercheurs testent des modèles d'IA dans des scénarios extrêmes. Cependant, selon Michael Chen, de l'organisme d'évaluation METR, il n'est pas encore certain que les modèles d'IA plus puissants du futur seront plus honnêtes ou resteront trompeurs.
De nombreux utilisateurs ont signalé que certains modèles leur mentent et fabriquent des preuves, a déclaré Marius Hobbhahn, directeur d'Apollo Research, qui teste de grands systèmes d'IA. Il s'agit d'un type de tromperie « clairement stratégique », selon le cofondateur d'Apollo Research.
Le défi est aggravé par le manque de ressources de recherche. Si des entreprises comme Anthropic et OpenAI se sont associées à des tiers comme Apollo pour évaluer leurs systèmes, les experts affirment qu'une plus grande transparence et un meilleur accès aux recherches sur la sécurité de l'IA sont nécessaires.
Les institutions de recherche et les organisations à but non lucratif disposent de ressources informatiques bien inférieures à celles des entreprises d'IA, note Mantas Mazeika du Center for AI Safety (CAIS). Légalement, la réglementation actuelle n'est pas conçue pour répondre à ces nouveaux enjeux.
La législation de l'Union européenne (UE) sur l'IA se concentre principalement sur la manière dont les humains utilisent les modèles d'IA, plutôt que sur le contrôle de leur comportement. Aux États-Unis, l'administration du président Donald Trump s'est montrée peu encline à promulguer des réglementations d'urgence sur l'IA, tandis que le Congrès envisage d'interdire aux États d'adopter leurs propres réglementations.
Les chercheurs adoptent diverses approches pour relever ces défis. Certains préconisent l'« interprétation des modèles » pour comprendre comment l'IA prend des décisions. Le professeur Goldstein a même proposé des mesures plus radicales, notamment le recours aux tribunaux pour tenir les entreprises d'IA responsables lorsque leurs produits entraînent de graves conséquences. Il suggère également de « tenir les agents d'IA eux-mêmes responsables » en cas d'accident ou d'infraction.
Source : https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Comment (0)