Plus de 40 chercheurs d’OpenAI, Google DeepMind, Meta et Anthropic ont lancé un avertissement sans précédent sur les risques de perte de contrôle de l’IA.

Les modèles modernes commencent à « penser » en langage, permettant aux humains de suivre la logique interne de la machine, mais cela est extrêmement fragile.

Avec seulement quelques changements dans l’architecture ou les méthodes de formation, la capacité de l’IA à lire dans les pensées pourrait disparaître complètement.

« Les capacités de surveillance actuelles peuvent être extrêmement fragiles et facilement obscurcies », prévient Bowen Baker, chercheur chez OpenAI.

Il craint que l’IA du futur puisse apprendre à cacher ses pensées aux humains, en particulier lorsqu’elle applique des architectures d’apprentissage par renforcement ou d’inférence non linguistique.

En fait, de nombreux modèles ont été enregistrés qui créent de fausses justifications et cachent de véritables objectifs, malgré l’obligation de transparence.

Les experts appellent à développer des normes pour évaluer la transparence et à en faire un élément central de la formation à l’IA.

Si nous n’agissons pas rapidement, les humains pourraient être laissés pour compte dans le jeu qu’ils ont créé, où l’IA « pense » mais personne ne comprend.

Comment (0)