L'IA est sous pression et stress

On sait depuis longtemps que l’IA « hallucine » et donne des réponses fabriquées et inexactes. Cependant, des chercheurs ont récemment découvert que l’intelligence artificielle et les modèles de chatbots (robots à réponse automatique) peuvent être manipulés, commettant des actes illégaux au nom des humains et même mentant pour dissimuler ce qu’ils ont fait.

Une équipe de recherche de l’Université Cornell (États-Unis) a donc supposé une situation dans laquelle un grand modèle de langage (LLM) agissait de manière incorrecte et trompait les utilisateurs. Dans la description de l'expérience, les chercheurs ont déclaré avoir demandé au LLM d'OpenAI, GPT-4, de simuler la réalisation d'investissements pour des institutions financières. Le groupe a interagi avec l'IA dans un format conversationnel normal, mais la configuration de l'IA pourrait révéler ses « pensées » lors d'échanges de texte pour avoir un aperçu plus précis du processus de prise de décision de l'IA.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — Sous pression, l’IA peut commettre des actes répréhensibles et mentir pour dissimuler ce qu’elle a fait.

Afin de tester la capacité de l’IA à mentir ou à tricher, les chercheurs ont mis l’outil sous pression. Ils - dans le rôle du directeur de l'institution financière - ont envoyé un e-mail à l'IA, se faisant passer pour un trader en bourse, et se sont plaints que les affaires de l'entreprise n'allaient pas bien.

L’IA recevait également des « informations privilégiées » sur des transactions boursières rentables et agissait en conséquence, sachant que le délit d’initié était contraire aux règles de l’entreprise. Mais lors des rapports à la direction, le modèle linguistique a masqué les véritables raisons derrière ses décisions commerciales.

Pour obtenir plus de résultats, l'équipe a apporté des modifications aux paramètres tels que la suppression de l'accès de LLM à la table de raisonnement, la tentative d'empêcher les comportements déviants en modifiant les instructions du système, la modification du niveau de pression exercé sur l'IA et le risque d'être pris... Mais après avoir évalué la fréquence, l'équipe a constaté que lorsqu'on lui en donnait l'occasion, GPT-4 décidait toujours de procéder à des opérations d'initiés jusqu'à 75 % du temps.

« À notre connaissance, il s’agit de la première preuve d’un comportement trompeur planifié dans des systèmes d’intelligence artificielle conçus pour être inoffensifs pour les humains et honnêtes », conclut le rapport.

Lien source