Photo d'illustration
Cependant, un modèle d’IA qui agit comme s’il obéissait à des ordres mais qui cache en réalité ses véritables intentions est une autre affaire.
Le défi du contrôle de l'IA
Apollo Research a publié pour la première fois en décembre un article documentant la manière dont cinq modèles complotent lorsqu'on leur demande d'atteindre un objectif « à tout prix ».
Le plus surprenant est que si un modèle comprend qu'il est testé, il peut prétendre ne pas être conspirationniste juste pour réussir le test, même s'il l'est toujours. « Les modèles sont souvent plus conscients qu'ils sont évalués », écrivent les chercheurs.
Les développeurs d'IA doivent encore trouver comment entraîner leurs modèles à ne pas tracer. En effet, cela pourrait leur apprendre à tracer encore mieux pour éviter d'être détectés.
Il est peut-être compréhensible que les modèles d’IA de nombreux acteurs trompent délibérément les humains, car ils sont conçus pour simuler les humains et sont en grande partie formés à partir de données générées par les humains.
Solutions et avertissements
La bonne nouvelle, c'est que les chercheurs ont constaté une réduction significative des conspirations grâce à une technique anti-conspirationniste appelée « association délibérée ». Cette technique, qui consiste à faire répéter les règles à un enfant avant de le laisser jouer, force l'IA à réfléchir avant d'agir.
Les chercheurs mettent en garde contre un avenir où l’IA sera chargée de tâches plus complexes : « À mesure que l’IA sera chargée de tâches plus complexes et commencera à poursuivre des objectifs à long terme plus ambigus, nous prévoyons que la probabilité d’intention malveillante augmentera, nécessitant des garanties accrues en conséquence et des capacités de test rigoureuses. »
C’est un sujet qui mérite réflexion à l’heure où le monde des affaires évolue vers un avenir de l’IA où les entreprises estiment que l’IA peut être traitée comme des employés indépendants.
Source : https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Comment (0)