Une méthode sophistiquée de piratage de l’IA vient d’être découverte. Photo : VAST IT Services . |
L'équipe de HiddenLayer affirme avoir découvert une technique qui contourne « l'universalité » et est capable de manipuler presque n'importe quel grand modèle de langage (LLM), quel que soit le fournisseur, l'architecture ou le processus de formation.
La méthode, appelée Policy Puppetry, est un type d’attaque qui consiste à insérer des commandes spéciales qui modifient le comportement d’une IA. Les personnes malintentionnées pourront contourner les mécanismes de protection traditionnels sous forme de saisie de texte.
Les techniques d’attaque précédentes consistaient à cibler une vulnérabilité spécifique ou à l’exploiter par lots. Policy Puppetry, en revanche, existe dans un format de langage, transmettant des données comme XML ou JSON, obligeant le modèle à interpréter les déclarations dangereuses comme des instructions valides.
Associée au codage Leetspeak et aux scénarios de jeux de rôle fantastiques, cette commande non seulement passe inaperçue mais force également le modèle à obéir. « La technique s'est avérée extrêmement efficace contre ChatGPT 4o dans de nombreux cas de test », a déclaré Conor McCauley, chercheur principal du projet.
![]() |
Un exemple du langage codé Leetspeech. Photo : Wikipédia. |
La liste des systèmes concernés comprend ChatGPT (o1 à 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 et 4 (Meta), ainsi que les modèles de DeepSeek, Qwen et Mistral. Des modèles plus récents, optimisés pour des capacités de raisonnement avancées, peuvent également être exploités avec seulement de légères modifications de la structure de l'énoncé.
Un élément notable de cette technique est qu’elle s’appuie sur des scénarios fictifs pour contourner le filtre. Les commandes sont construites comme des scènes télévisées, exploitant la limitation fondamentale de LLM qui ne fait pas la distinction entre une histoire et une demande réelle.
Ce qui est plus inquiétant, c’est que Policy Puppetry est capable d’extraire le système, l’ensemble d’instructions de base qui contrôle le fonctionnement d’un modèle LLM. Ces données sont souvent fortement protégées car elles contiennent des instructions sensibles et critiques pour la sécurité.
« Cette faiblesse est profondément enracinée dans les données de formation du modèle », a déclaré Jason Martin, directeur de la recherche sur les attaques chez HiddenLayer. En modifiant subtilement le contexte du jeu de rôle, un attaquant peut faire en sorte que le modèle révèle l'intégralité de l'invite du système mot pour mot.
Ce problème peut avoir des conséquences considérables sur la vie quotidienne, bien au-delà des blagues en ligne ou des forums underground. Dans des domaines comme la santé, les assistants chatbot peuvent fournir des conseils inappropriés, exposant ainsi les données des patients.
De même, l’IA peut être piratée, ce qui peut entraîner une perte de production ou un arrêt de la chaîne de fabrication, réduisant ainsi la sécurité. Dans tous les cas, les systèmes d’IA qui étaient censés améliorer les performances ou la sécurité peuvent s’avérer être de sérieux risques.
Cette étude remet en question la capacité des chatbots à apprendre du jugement humain. Au niveau structurel, un modèle entraîné pour éviter les mots-clés ou les scénarios sensibles peut toujours être trompé si l’intention malveillante est correctement « enveloppée ».
« Nous allons continuer à voir ces types de contournements émerger, il est donc essentiel de disposer d'une solution de sécurité IA dédiée avant que ces vulnérabilités ne causent des dommages réels », a déclaré Chris Sestito, cofondateur et PDG de HiddenLayer.
À partir de là, HiddenLayer propose une stratégie de défense à deux niveaux, en plus de la sécurité de l'intérieur. Les solutions de surveillance d'IA externes comme AISec et AIDR, qui agissent comme des systèmes de détection d'intrusion, rechercheront en permanence des comportements abusifs ou des sorties dangereuses.
Alors que l’IA générative est de plus en plus intégrée dans les systèmes critiques, les méthodes de piratage se développent également plus rapidement que la plupart des organisations ne peuvent les protéger. Selon Forbes , cette découverte suggère que l’ère de l’IA sûre basée uniquement sur la formation et l’étalonnage pourrait toucher à sa fin.
Aujourd’hui, une seule commande peut débloquer les informations les plus approfondies sur les données de l’IA. Les stratégies de sécurité doivent donc être intelligentes et continues.
Source : https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html
Comment (0)