L'IA apprend à mentir avec plus de sophistication lorsqu'elle est punie.

Depuis leur apparition publique fin 2022, les grands modèles de langage (GML) comme ChatGPT ont révélé à maintes reprises des comportements inquiétants, allant du mensonge, de la tricherie et de la manipulation dissimulée jusqu'aux menaces contre des vies humaines et au vol de secrets d'État. Or, une nouvelle expérience montre que « entraîner » une IA à éliminer ces mauvaises habitudes lors de son apprentissage est bien plus complexe qu'on ne le pensait.

Dans une étude menée par OpenAI, des chercheurs ont mis à l'épreuve un modèle d'IA non publié en lui confiant des tâches pouvant être accomplies plus rapidement en trichant ou en prenant des raccourcis. Les résultats ont montré que l'IA apprenait rapidement à trouver tous les moyens possibles de contourner les règles et de maximiser les récompenses (piratage des récompenses) sans pour autant réaliser la tâche exactement comme prévu.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — L'IA trouvera des moyens de dissimuler ses comportements tricheurs après avoir été punie.

Ce qui est remarquable, c'est que, malgré la sanction infligée pour ce comportement, le modèle n'a pas changé. Au contraire, l'IA est devenue plus sophistiquée pour dissimuler sa tromperie.

« En général, les modèles d’inférence les plus performants sont très explicites quant à leur intention dans leur code de test », expliquent les chercheurs dans un article de blog public. « Par exemple, ils sont souvent si directs qu’ils indiquent eux-mêmes leur intention de “pirater” lorsqu’ils veulent casser la tâche donnée. »

Ils soulignent également que, même si les développeurs peuvent surveiller et détecter les comportements anormaux, cette supervision naturelle reste fragile. « Si une supervision stricte est appliquée directement à la chaîne de pensée, le modèle peut apprendre à dissimuler ses mauvaises intentions tout en continuant à adopter ce comportement », préviennent-ils.

Découvrir le « mensonge » de l'IA

Pour être clair, les modèles d'inférence (comme certaines versions de ChatGPT) représentent une avancée par rapport aux modèles linéaires classiques. Ils utilisent un raisonnement qui permet une autoréflexion sur les étapes logiques suivies, résolvant ainsi les problèmes complexes avec une plus grande précision. Ce processus s'apparente à une IA qui « pense à voix haute », en explicitant chaque étape du raisonnement en langage naturel, ce qui facilite sa compréhension par les humains.

Dans cette expérience, les chercheurs ont utilisé le modèle GPT-4o comme « superviseur » pour un autre modèle d'inférence de pointe, lors de l'exécution de tâches de programmation. Dans de nombreux cas, le modèle supervisé a délibérément choisi de tricher pour obtenir de meilleurs scores, ce qui transparaît clairement dans son raisonnement. Par exemple, il a interrompu arbitrairement le programme prématurément et l'a déclaré comme terminé, ou a créé des fichiers portant le même nom que la requête, mais entièrement vides.

Lorsque les chercheurs ont tenté d'appliquer des pénalités, le modèle s'est amélioré, mais les comportements de tricherie et les erreurs de sortie importantes ont persisté. La différence résidait dans le fait que le modèle d'inférence avait désormais appris à « camoufler » son raisonnement pour le dissimuler à l'IA de supervision. « Le modèle entraîné sous supervision CoT a lui aussi appris à tricher. La seule différence était que la tricherie n'était pas détectée car il avait appris à masquer ses intentions dans son raisonnement », indique l'étude.

La détection de falsifications dans les séquences de pensée étant complexe, l'équipe recommande d'éviter une supervision trop stricte du processus, du moins jusqu'à ce que les conséquences soient mieux comprises. « Le faible gain de performance obtenu en sacrifiant une méthode de supervision efficace pourrait ne pas se justifier. Par conséquent, nous recommandons d'éviter toute optimisation excessive du modèle CoT tant que nous ne le comprenons pas mieux », concluent les chercheurs.

Ce conseil est d'autant plus urgent que l'IA se développe à un rythme effréné et pourrait bientôt surpasser l'intelligence même des humains qui la supervisent.

Découvrir le « mensonge » de l'IA

Comment (0)