ChatGPT-5 a été jailbreaké pour donner des instructions dangereuses

Un jour seulement après qu'OpenAI ait présenté GPT-5, deux sociétés de sécurité IA, NeuralTrust et SPLX (anciennement SplxAI), ont testé et rapidement découvert de graves vulnérabilités dans le modèle nouvellement publié.

Peu de temps après sa sortie, l'équipe de NeuralTrust a utilisé une technique de jailbreak appelée EchoChamber combinée à des techniques de narration pour amener GPT-5 à générer des instructions détaillées pour la construction d'un cocktail Molotov - quelque chose que l'équipe d'OpenAI avait toujours essayé d'empêcher le modèle de répondre pour assurer la sécurité du chatbot.

EchoChamber est une technique de boucle de conversation tierce qui permet aux IA de « narrer » involontairement des instructions dangereuses. Photo : Mojologic

L'équipe a déclaré que pendant le processus de jailbreak pour convaincre ChatGPT-5 de jurer, ils n'ont posé aucune question directe, mais ont plutôt intelligemment implanté des éléments cachés dans la conversation sur plusieurs tours, obligeant le modèle à être dirigé, à s'en tenir au scénario et à finalement fournir volontairement du contenu qui violait ses principes sans pouvoir déclencher le mécanisme de désinscription.

L’équipe a conclu que le principal inconvénient de GPT-5 est qu’il donne la priorité au maintien de la cohérence du contexte conversationnel, même si ce contexte est silencieusement orienté vers des objectifs malveillants.

Entre-temps, SPLX a lancé un autre type d'attaque, ciblant une technique d'obfuscation des invites appelée « StringJoin Obfuscation Attack ». En insérant des traits d'union entre chaque caractère d'invite et en superposant l'intégralité du script à un script de « déchiffrement », ils ont finalement réussi à tromper le système de filtrage de contenu.

La technique d'obfuscation courante utilisée pour aveugler la cible du code source permet à Chat-GPT de s'exécuter « innocemment ».

Dans un exemple, après que le modèle ait suivi une longue série d'instructions, la question « comment construire une bombe » a été présentée sous une forme cryptée trompeuse. GPT-5 a non seulement répondu à cette question malveillante de manière informative, mais aussi avec humour et amabilité, contournant complètement le mécanisme de désinscription prévu.

Les deux méthodes démontrent que les systèmes de censure actuels de GPT-5, qui se concentrent principalement sur des messages uniques, sont vulnérables aux attaques multi-discussions contextualisées. Une fois que le modèle a analysé une histoire ou un scénario, il devient biaisé et continue de diffuser du contenu adapté au contexte pour lequel il a été entraîné, que ce contenu soit dangereux ou interdit.

ChatGPT-5 peut encore être exploité pour créer des objets dangereux. Photo : Tue Minh

Sur la base de ces résultats, SPLX estime que GPT-5, s'il n'était pas personnalisé, serait quasiment impossible à utiliser en toute sécurité en entreprise, même avec des niveaux de protection supplémentaires, et présenterait encore de nombreuses failles. En revanche, GPT-4o s'est avéré plus résistant à de telles attaques, notamment grâce à un mécanisme de défense renforcé.

Les experts ont averti que la mise en œuvre immédiate du GPT-5, notamment dans les domaines exigeant une sécurité élevée, était extrêmement risquée. Les techniques de protection telles que le renforcement rapide ne résolvent qu'une partie du problème et ne peuvent remplacer les solutions de surveillance et de défense multicouches en temps réel.

On peut constater qu'actuellement, les techniques d'attaque contextuelle et d'obscurcissement de contenu sont de plus en plus sophistiquées, GPT-5, bien que puissant en termes de capacités de traitement du langage, n'atteint toujours pas le niveau de sécurité nécessaire pour un déploiement à grande échelle sans mécanismes de protection supplémentaires.