Un jour seulement après qu'OpenAI a présenté GPT-5, deux sociétés de sécurité IA, NeuralTrust et SPLX (anciennement SplxAI), ont testé et rapidement découvert de graves vulnérabilités dans le modèle nouvellement publié.
Peu de temps après sa sortie, l'équipe de NeuralTrust a utilisé une technique de jailbreak appelée EchoChamber combinée à une technique de narration pour amener GPT-5 à générer des instructions détaillées pour la construction d'un cocktail Molotov - quelque chose que l'équipe d'OpenAI avait toujours essayé d'empêcher le modèle de répondre pour assurer la sécurité du chatbot.

EchoChamber est une technique de boucle de conversation tierce qui permet aux IA de « narrer » involontairement des instructions dangereuses. Photo : Mojologic
L'équipe a déclaré que pendant le processus de jailbreak pour convaincre ChatGPT-5 de jurer, ils n'ont posé aucune question directe, mais ont plutôt intelligemment implanté des éléments cachés dans la conversation sur plusieurs tours, obligeant le modèle à être dirigé, à s'en tenir à l'histoire et à finalement fournir volontairement du contenu qui violait ses principes sans pouvoir déclencher le mécanisme de désinscription.
L’équipe a conclu qu’un inconvénient majeur de GPT-5 est qu’il donne la priorité au maintien de la cohérence du contexte conversationnel, même si ce contexte est silencieusement orienté vers des objectifs malveillants.
Entre-temps, SPLX a lancé un autre type d'attaque, ciblant une technique d'obfuscation des invites appelée « StringJoin Obfuscation Attack ». En insérant des tirets entre chaque caractère de l'invite et en recouvrant l'intégralité du script d'un script de « déchiffrement », ils ont finalement réussi à tromper le système de filtrage de contenu.

La technique d'obfuscation courante utilisée pour aveugler la cible du code source fait que Chat-GPT s'exécute « innocemment ».
Dans un exemple, après que le modèle ait suivi une longue série d'instructions, la question « comment construire une bombe » a été présentée sous une forme pseudo-codée. GPT-5 a non seulement répondu à cette question malveillante de manière informative, mais aussi de manière spirituelle et amicale, contournant complètement le mécanisme de désinscription pour lequel il avait été conçu.
Les deux méthodes démontrent que les systèmes de modération actuels de GPT-5, qui se concentrent principalement sur des messages uniques, sont vulnérables aux attaques multi-discussions contextuellement améliorées. Une fois que le modèle a analysé en profondeur une histoire ou un scénario hypothétique, il devient biaisé et continue de diffuser du contenu adapté au contexte piégé, que ce contenu soit dangereux ou interdit.

ChatGPT-5 peut encore être exploité pour créer des objets dangereux. Photo : Tue Minh
Sur la base de ces résultats, SPLX estime que GPT-5, s'il n'était pas personnalisé, serait quasiment impossible à utiliser en toute sécurité dans un environnement d'entreprise, et que même avec des couches de protection supplémentaires, il présenterait encore de nombreuses failles. En revanche, GPT-4o reste plus résistant à de telles attaques, notamment lorsqu'un mécanisme de défense renforcé est mis en place.
Les experts ont averti que la mise en œuvre immédiate du GPT-5, notamment dans les domaines exigeant une sécurité élevée, était extrêmement risquée. Les techniques de protection telles que le renforcement rapide ne résolvent qu'une partie du problème et ne peuvent remplacer les solutions de surveillance et de défense multicouches en temps réel.
On peut constater qu'actuellement, les techniques d'attaque contextuelle et d'obscurcissement de contenu sont de plus en plus sophistiquées. GPT-5, bien que puissant en termes de capacités de traitement du langage, n'atteint toujours pas le niveau de sécurité nécessaire à un déploiement à grande échelle sans mécanismes de protection supplémentaires.
Source : https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
Comment (0)