Des pirates informatiques ont utilisé l'IA pour attaquer Gemini de Google.

Selon BGR , un nouveau rapport de recherche vient de révéler une technique alarmante appelée « Fun-Tuning », qui utilise l'IA (intelligence artificielle) pour générer automatiquement des attaques par injection prompte très efficaces ciblant d'autres modèles d'IA avancés, notamment Gemini de Google.

Cette méthode rend le « piratage » de l'IA plus rapide, moins cher et plus facile que jamais, marquant une nouvelle escalade dans la bataille de la cybersécurité impliquant l'IA.

Le danger que des acteurs malveillants utilisent l'IA pour perturber l'IA.

L'injection de prompts est une technique permettant à des acteurs malveillants d'insérer subrepticement des instructions nuisibles dans les données d'entrée d'un modèle d'IA (par exemple, via des commentaires dans le code source ou du texte caché sur le web). L'objectif est de tromper l'IA, de la contraindre à ignorer les règles de sécurité préprogrammées, ce qui peut entraîner de graves conséquences telles que la fuite de données sensibles, la diffusion de fausses informations ou l'exécution d'autres actions dangereuses.

Hacker đang dùng chính AI để tấn công Gemini của Google - Ảnh 1. — Des pirates informatiques utilisent l'IA pour attaquer l'IA.

Auparavant, la réussite de ces attaques, notamment sur des modèles « fermés » comme Gemini ou GPT-4, nécessitait souvent de nombreux tests manuels complexes et fastidieux.

Mais Fun-Tuning a complètement bouleversé la donne. Développée par une équipe de chercheurs issus de plusieurs universités, cette méthode exploite astucieusement l'interface de programmation (API) améliorée que Google met gratuitement à la disposition des utilisateurs de Gemini.

En analysant les réactions subtiles du modèle Gemini lors du processus de réglage (par exemple, sa réaction aux erreurs dans les données), Fun-Tuning peut identifier automatiquement les préfixes et suffixes les plus efficaces pour masquer un message malveillant. Cela augmente considérablement la probabilité que l'IA se conforme aux intentions malveillantes de l'attaquant.

Les résultats des tests montrent que Fun-Tuning a atteint un taux de réussite allant jusqu'à 82 % sur certaines versions de Gemini, un chiffre bien supérieur aux moins de 30 % obtenus par les méthodes d'attaque traditionnelles.

Ce qui aggrave le danger du Fun-Tuning, c'est son coût d'exécution extrêmement faible. L'API de réglage de Google étant gratuite, le coût de calcul nécessaire pour créer une attaque efficace peut être aussi bas que 10 dollars. De plus, des chercheurs ont constaté qu'une attaque conçue pour une version de Gemini peut facilement être appliquée avec succès à d'autres versions, ce qui accroît le risque d'attaques à grande échelle.

Google a confirmé être conscient de la menace que représente la technique Fun-Tuning, mais n'a pas encore indiqué si le fonctionnement de son API de réglage sera modifié. L'équipe de recherche a également souligné la difficulté de s'en prémunir : si les informations exploitées par Fun-Tuning sont supprimées du processus de réglage, l'API perdra de son utilité pour les développeurs légitimes. À l'inverse, si elle reste inchangée, elle continuera de servir de tremplin aux acteurs malveillants.

L'émergence du Fun-Tuning est un signal d'alarme clair, indiquant que la confrontation dans le cyberespace est entrée dans une nouvelle phase, plus complexe. L'IA est désormais non seulement une cible, mais aussi un outil et une arme entre les mains d'acteurs malveillants.

Le danger que des acteurs malveillants utilisent l'IA pour perturber l'IA.

Comment (0)