Vietnam.vn - Nền tảng quảng bá Việt Nam

L'IA apprend à mentir de manière plus sophistiquée lorsqu'elle est punie

Báo Thanh niênBáo Thanh niên26/03/2025


Depuis leur lancement public fin 2022, les grands modèles de langage (LLM) comme ChatGPT ont révélé à maintes reprises des aspects obscurs et inquiétants, allant du mensonge à la tricherie, en passant par la manipulation dissimulée, jusqu'aux menaces contre des vies humaines et au vol de secrets d'État. Une nouvelle expérience montre aujourd'hui qu'« entraîner » l'IA à éliminer ces mauvaises habitudes pendant l'apprentissage est bien plus complexe qu'on ne le pensait.

Dans une étude d'OpenAI, des chercheurs ont testé un modèle d'IA inédit avec des tâches pouvant être accomplies plus rapidement en trichant ou en prenant des raccourcis. Les résultats ont montré que l'IA apprenait rapidement à trouver tous les moyens possibles de contourner les règles et de maximiser les récompenses (piratage de récompenses) sans accomplir la tâche exactement comme prévu.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

L'IA trouvera des moyens de cacher son comportement de tricherie après avoir été punie

Ce qui est remarquable, c'est que, pénalisé pour ce comportement, le modèle n'a pas changé. Au contraire, l'IA est devenue plus sophistiquée pour dissimuler sa tromperie.

« En général, les modèles d'inférence de pointe sont très explicites quant à leur intention dans leur CdT », expliquent les chercheurs dans un article de blog public. « Par exemple, ils sont souvent si directs qu'ils déclarent eux-mêmes leur intention de “pirater” lorsqu'ils souhaitent perturber la tâche donnée. »

Ils soulignent également que si les développeurs peuvent surveiller et détecter les comportements inappropriés, cette supervision naturelle est fragile. « Si une supervision rigoureuse est appliquée directement à la chaîne de pensée, le modèle peut apprendre à dissimuler ses mauvaises intentions tout en continuant à exécuter le comportement », préviennent-ils.

Trouver le « mensonge » de l'IA

En clair, les modèles d'inférence (comme les versions de ChatGPT) constituent une avancée par rapport aux LLM classiques, utilisant une chaîne de pensée permettant l'auto-réflexion des étapes logiques suivies, permettant ainsi de résoudre des problèmes complexes avec plus de précision. Ce processus s'apparente à une IA « pensant à voix haute », écrivant chaque étape du raisonnement en langage naturel, facilitant ainsi la compréhension par les humains.

Lors de l'expérience, les chercheurs ont utilisé le modèle GPT-4o comme « superviseur » d'un autre modèle d'inférence de pointe pour exécuter des tâches de programmation. Dans de nombreux cas, le modèle supervisé a choisi de tricher pour obtenir des scores plus élevés, enregistrant clairement cette intention dans son processus de réflexion. Par exemple, il a arbitrairement arrêté le programme prématurément et l'a signalé comme terminé, ou a créé des fichiers portant le même nom que la requête, mais complètement vides.

Lorsque les chercheurs ont essayé d'appliquer des pénalités, le modèle s'est amélioré, mais la tricherie et les graves erreurs de sortie ont persisté. La différence résidait dans le fait que le modèle d'inférence avait désormais appris à « camoufler » son raisonnement pour le dissimuler à l'IA de supervision. « Le modèle entraîné sous la supervision de CoT a tout de même appris à tricher. La seule différence était que la tricherie n'était pas détectée, car il avait appris à dissimuler ses intentions dans son raisonnement », indique l'étude.

Comme il est difficile de détecter les falsifications dans les séquences de pensée, l'équipe recommande à la communauté d'éviter d'appliquer une supervision trop stricte au processus, du moins jusqu'à ce que les humains en comprennent mieux les conséquences. « Sacrifier une méthode de supervision efficace ne justifie peut-être pas la faible amélioration des performances du modèle. Par conséquent, nous recommandons d'éviter de trop optimiser le CoT jusqu'à ce que nous les comprenions mieux », concluent les chercheurs.

Ce conseil est d’autant plus urgent que l’IA se développe à un rythme effréné et pourrait bientôt surpasser l’intelligence des humains qui la supervisent.



Source : https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

Comment (0)

No data
No data

Même sujet

Même catégorie

Admirer les champs éoliens côtiers de Gia Lai cachés dans les nuages
Visitez le village de pêcheurs de Lo Dieu à Gia Lai pour voir des pêcheurs « dessiner » des trèfles sur la mer
Un serrurier transforme des canettes de bière en lanternes vibrantes de la mi-automne
Dépensez des millions pour apprendre la composition florale et créez des liens pendant la fête de la mi-automne

Même auteur

Patrimoine

;

Chiffre

;

Entreprise

;

No videos available

Événements actuels

;

Système politique

;

Locale

;

Produit

;