Surveillance de la « chaîne de pensée » de l'intelligence artificielle

Il s'agit d'une opportunité certes fragile, mais essentielle pour garantir la sécurité des futures applications de l'IA. Cette opportunité est d'autant plus pertinente que le Vietnam vient d'adopter la loi sur l'industrie des technologies numériques , qui comprend une réglementation détaillée de la gestion de l'intelligence artificielle (IA).

La «fenêtre d'opportunité» se rétrécit

Dans un récent article commun, des chercheurs d'OpenAI avertissent que la capacité de l'IA à surveiller les « pensées » pourrait disparaître sans efforts de recherche ciblés, a déclaré Bowen Baker, chercheur chez OpenAI.

Ceci est d'autant plus important que les modèles d'IA deviennent de plus en plus puissants et ont le potentiel d'avoir de graves répercussions sur la société.

Une caractéristique essentielle des modèles d'IA de raisonnement comme o-3 d'OpenAI et R1 de DeepSeek est la « chaîne de pensée » ( CoT) – le processus par lequel l'IA exprime ses étapes de raisonnement en langage naturel, de la même manière que les humains écrivent chaque étape d'un problème mathématique sur un brouillon.

Cette capacité nous offre un aperçu rare de la façon dont l'IA prend des décisions.

Cela marque un rare moment d'unité entre de nombreux leaders de l'industrie de l'IA pour faire progresser la recherche sur la sécurité de l'IA.

Ceci est particulièrement pertinent compte tenu de la concurrence féroce que se livrent les entreprises technologiques dans le domaine du développement de l'IA. Parmi les signataires notables de l'article figurent Mark Chen, directeur de la recherche chez OpenAI, Ilya Sutskever, PDG de Safe Superintelligence, Geoffrey Hinton, lauréat du prix Nobel, Shane Legg, cofondateur de Google DeepMind, et Dan Hendrycks, conseiller en sécurité chez xAI.

L'implication de ces personnalités de premier plan témoigne de l'importance du sujet.

Selon M. Bowen Baker, « nous nous trouvons à un moment critique où émerge cette nouvelle "chaîne de pensée" qui risque de disparaître dans les prochaines années si l'on ne s'y intéresse pas vraiment. »

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 1

Pourquoi est-il important de surveiller la « pensée de l'IA » ?

Les systèmes d'IA actuels sont souvent considérés comme des « boîtes noires » : nous connaissons les entrées et les sorties, mais nous ne comprenons pas les processus de décision internes.

Cela deviendra dangereux lorsque l'IA sera appliquée à des domaines importants tels que la santé , la finance et la sécurité nationale.

La surveillance CoT est un système automatisé qui analyse la chaîne mentale du modèle mental et d'autres informations pertinentes afin de signaler les interactions suspectes ou potentiellement dangereuses. Bien qu'elle ne constitue pas une solution complète, elle représente un atout précieux en matière de sécurité.

Les recherches d'OpenAI montrent que les modèles d'IA ont tendance à être très explicites quant à leurs intentions dans leurs séquences de réflexion.

Par exemple, ils étaient souvent très explicites quant à leurs plans de sabotage d'une mission lorsqu'ils pensaient « Piratons-le ». Cela démontre la capacité de l'IA à surveiller et à détecter les comportements inappropriés.

« Piratons » est l’expression que les modèles d’IA « pensent » souvent lorsqu’« ils » ont l’intention de saboter ou de contourner les règles au cours de l’exécution d’une tâche.

Le fait que les IA manifestent des intentions de « piratage » dans leurs processus de pensée suggère que nous pouvons détecter les comportements malveillants des IA avant qu'ils ne se produisent. C'est pourquoi la surveillance des processus de pensée est importante.

En d'autres termes, « piratons » est comme un « signal d'alarme » destiné à avertir les humains que l'IA est sur le point de faire quelque chose de mal.

Le Vietnam et la réglementation juridique sur l'IA

En réalité, le Vietnam a réalisé des progrès importants dans la mise en place d'un cadre juridique pour l'IA.

Le 14 juin, l' Assemblée nationale vietnamienne a adopté la loi sur l'industrie des technologies numériques, dont le chapitre IV contient des réglementations détaillées sur l'intelligence artificielle - l'un des cadres juridiques les plus complets sur l'IA en Asie du Sud-Est aujourd'hui.

L’article 41 de la loi énonce les principes fondamentaux du développement, de la fourniture et du déploiement de l’IA au Vietnam.

En particulier, le point b, clause 1 stipule : « Garantir la transparence, la responsabilité, l’explicabilité ; veiller à ce que cela ne dépasse pas le contrôle humain ».

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 2 — L'Assemblée nationale a adopté la loi sur l'industrie des technologies numériques (Photo : Nhat Bac).

Ce sont là les principes que les scientifiques internationaux appellent de leurs vœux lorsqu'ils abordent la question de la surveillance de la chaîne d'IA.

En outre, le point d, paragraphe 1, article 41 stipule : « Garantir la capacité de contrôler les algorithmes et les modèles d’intelligence artificielle ». Ceci est parfaitement conforme à l’esprit de la supervision CoT proposée par les experts internationaux.

Plus important encore, l’article 41, paragraphe 1, point a, établit également une norme éthique élevée lorsqu’il stipule que l’IA doit « servir la prospérité et le bonheur de l’humanité, en plaçant les personnes au centre ».

Cela signifie que la surveillance de la chaîne de pensée de l'IA n'est pas seulement une exigence technique, mais aussi une obligation éthique – garantissant que l'IA soit toujours orientée vers le bénéfice humain, et non vers les objectifs propres à la machine.

Classer et gérer l'IA par niveau de risque

La loi vietnamienne sur l'industrie des technologies numériques est allée encore plus loin en classant l'IA en différents groupes de risque selon des définitions claires et scientifiques.

L’article 43 définit les « systèmes d’intelligence artificielle à haut risque » comme des systèmes susceptibles de présenter des risques ou des risques graves pour la santé humaine, les droits de l’homme et l’ordre public.

Il est intéressant de noter que la loi prévoit des exceptions spécifiques pour l'IA à haut risque, notamment pour les systèmes « destinés à aider les humains à optimiser les résultats du travail » et « non destinés à remplacer la prise de décision humaine ».

Cela témoigne d'une approche équilibrée entre l'encouragement de l'innovation et la garantie de la sécurité.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 3 — La classification des IA par niveau de risque contribuera à la création d'un système de surveillance à plusieurs niveaux (Illustration : LinkedIn).

En particulier, la distinction entre « IA à haut risque » et « IA à fort impact » (systèmes utilisés à des fins multiples et comptant un grand nombre d’utilisateurs) démontre une nuance dans l’approche.

Il s’agit d’une classification plus progressive que la loi de l’Union européenne (UE) sur l’intelligence artificielle, qui prend en compte non seulement le niveau de risque, mais aussi l’ampleur et la portée de l’impact.

Cette classification permettrait de créer un système de surveillance à plusieurs niveaux, dans lequel la surveillance de la chaîne de contrôle serait particulièrement importante pour les systèmes d'IA à haut risque et à fort impact.

Plateforme de surveillance par IA

L'un des points forts et novateurs de la loi vietnamienne sur l'industrie et les technologies numériques réside dans l'exigence de transparence et de marques d'identification.

L’article 44 stipule que les systèmes d’IA interagissant directement avec les humains doivent informer ces derniers qu’ils interagissent avec le système. Par ailleurs, les produits créés par l’IA doivent porter des marques d’identification.

Cela a des implications importantes pour la mise en œuvre de la surveillance des interactions avec l'IA. Lorsque les utilisateurs savent qu'ils interagissent avec une IA, ils auront le droit d'exiger des explications sur le processus décisionnel, ce qui incitera les développeurs d'IA à maintenir la possibilité de surveiller le raisonnement de l'IA.

En particulier, le fait que le ministère des Sciences et des Technologies ait été chargé de « publier la liste des produits de technologies numériques créés par l'intelligence artificielle » témoigne d'une gestion proactive.

Il s'agit d'une différence importante par rapport à de nombreux autres pays, où la réglementation en matière d'IA est souvent plus générale.

De plus, l’exigence d’un identifiant « reconnu par l’utilisateur ou la machine » représente une vision d’un écosystème d’IA capable de s’autoréguler, ce qui correspond parfaitement à l’idée de surveillance automatisée à vue directe.

Modèle de gestion global

L'article 45 de la loi susmentionnée démontre une philosophie de gestion progressive en définissant clairement les responsabilités de trois groupes de sujets selon le cycle de vie du produit d'IA : le sujet du développement, le sujet de la fourniture et le sujet de la mise en œuvre de l'utilisation du système d'IA.

Cela crée un système de responsabilité global et sans faille, garantissant que la supervision de l'IA ne repose pas uniquement sur la responsabilité d'une seule partie.

Il convient de noter la subtile distinction entre « développer » et « fournir » l'IA ; les développeurs sont ceux qui « font de la recherche et développent », tandis que les fournisseurs sont ceux qui la commercialisent sous une marque.

Cela signifie que même si une entreprise se contente de renommer un modèle d'IA existant, elle reste responsable de la transparence et de l'explicabilité.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 4

Ce qui est particulièrement intéressant ici, c'est la manière dont la loi attribue différentes responsabilités à différentes entités.

Le développeur doit se conformer à tous les principes, le fournisseur doit assumer une responsabilité supplémentaire en matière d'identification et de gestion des risques élevés, et l'utilisateur est partiellement « exempté » de responsabilité mais doit néanmoins garantir la transparence et le contrôle des risques.

Ce modèle crée une « chaîne de responsabilité » où chaque maillon a intérêt à maintenir la supervision de la chaîne de pensée de l'IA, car tous sont responsables envers l'utilisateur final.

Le défi du maintien des capacités de surveillance

Toutefois, la capacité à surveiller les chaînes de pensée de l'IA pourrait demeurer fragile et vulnérable. Les nouvelles architectures d'IA pourraient également engendrer d'autres menaces.

De nombreux chercheurs développent des systèmes de raisonnement dans un espace mathématique continu, plutôt que dans des mots discrets, ce qui pourrait éliminer complètement le besoin d'utiliser le langage pour penser.

De plus, l'IA peut être « filtrée », c'est-à-dire qu'elle ne montre aux humains que des pensées positives à apprécier, tout en dissimulant délibérément ses véritables intentions.

Le danger réside ici dans le fait qu'une fois qu'une IA se rend compte qu'elle est surveillée, elle pourrait apprendre à dissimuler son véritable raisonnement.

Dans ce contexte, la disposition relative au « contrôle des risques tout au long du cycle de vie des systèmes d’intelligence artificielle » figurant au point e, paragraphe 1, de l’article 41 de la loi vietnamienne revêt une importance particulière. Cela implique la mise en place d’un mécanisme de surveillance continue, et non seulement au moment du déploiement.

Impact sur l'avenir du développement de l'IA

Le suivi du raisonnement pourrait devenir un outil important pour garantir que l'IA fonctionne de manière à bénéficier aux humains.

Si les modèles continuent de raisonner en langage naturel, et si les comportements qui présentent les risques les plus graves nécessitent un raisonnement approfondi, cela pourrait permettre une détection fiable des fautes graves.

Pour le Vietnam, l'application des techniques de contrôle des transactions contribuera à la mise en œuvre efficace des dispositions de la loi.

Par exemple, l’exigence d’« explicabilité » de l’article 41 serait plus facile à satisfaire si le raisonnement de l’IA était accessible. De même, le « contrôle des algorithmes et des modèles d’intelligence artificielle » deviendrait plus réalisable.

La mise en œuvre d'un système de surveillance par IA au Vietnam se heurtera à plusieurs obstacles. Le premier d'entre eux concerne les ressources humaines : on constate une pénurie d'experts en IA capables de développer et d'exploiter des systèmes de surveillance.

Cela nécessite des investissements importants dans la formation et l'attraction des talents.

Orientations pour l'avenir

Les chercheurs appellent les principaux développeurs de modèles d'IA à étudier ce qui rend le CoT « surveillable » — les facteurs qui peuvent accroître ou réduire la transparence quant à la manière dont les modèles d'IA sont utilisés — et à trouver rapidement des réponses.

La possibilité de surveiller la « pensée » de l’IA pourrait bien être notre dernière chance de garder le contrôle sur les systèmes d’intelligence artificielle de plus en plus puissants d’aujourd’hui.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 5

Pour le Vietnam, disposer d'un cadre juridique complet sur l'IA grâce à la loi sur l'industrie des technologies numériques constitue un atout majeur. Les réglementations relatives à la transparence, au contrôle des algorithmes et à la classification des risques ont permis d'établir une base juridique solide pour l'application des techniques de surveillance de la chaîne de pensée de l'IA.

L’alliance d’une recherche internationale de pointe et d’un cadre juridique national progressiste permettra au Vietnam non seulement de développer l’IA en toute sécurité, mais aussi de devenir un modèle pour les autres pays de la région.

Cela s’inscrit dans l’objectif de faire du Vietnam un « pôle technologique numérique régional et mondial », tel que défini dans les stratégies nationales de développement.

S’appuyant sur le cadre juridique existant, le Vietnam doit rapidement déployer des recherches et des applications pratiques sur le suivi de la chaîne de pensée de l’IA. Ce n’est qu’ainsi que nous pourrons garantir que l’IA contribue à la prospérité et au bonheur de l’humanité, conformément à l’esprit de la loi sur l’industrie des technologies numériques.

Source : https://dantri.com.vn/cong-nghe/giam-sat-chuoi-tu-duy-cua-tri-tue-nhan-tao-20250731151403739.htm