
Anthropic prévient que l'insertion de données malveillantes pour fausser les réponses de l'IA est beaucoup plus facile qu'on ne l'imagine - Photo : FREEPIK
La société d'intelligence artificielle Anthropic, développeuse du chatbot Claude, vient de publier une étude montrant qu'« empoisonner » les grands modèles de langage (LLM), c'est-à-dire insérer des données malveillantes pour déformer les réponses de l'IA, est beaucoup plus facile qu'on ne l'imaginait.
Selon Cyber News, seulement 250 documents spécialement conçus suffisent à amener un modèle d'IA générative (GenAI) à donner des réponses complètement incorrectes lorsqu'il rencontre une certaine phrase de déclenchement.
Il est inquiétant de constater que la taille du modèle ne réduit pas ce risque. Auparavant, les chercheurs pensaient que plus le modèle était grand, plus il fallait de données malveillantes pour installer une « porte dérobée ».
Mais Anthropic affirme que le modèle à 13 milliards de paramètres – formé sur plus de 20 fois plus de données – et le modèle à 600 millions de paramètres peuvent être compromis avec le même petit nombre de documents « empoisonnés ».
« Cette découverte remet en cause l'hypothèse selon laquelle un attaquant doit contrôler un certain pourcentage des données d'entraînement. En réalité, il pourrait n'en avoir besoin que d'une très petite quantité fixe », souligne Anthropic.
L'entreprise prévient que ces vulnérabilités pourraient poser de graves risques pour la sécurité des systèmes d'IA et menacer l'application de la technologie dans des domaines sensibles.
Source: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Comment (0)