Les pirates informatiques exploitent la « personnalité

(Photo : Freepik)

Les pirates informatiques exploitent la « personnalité » des chatbots d'IA de manière de plus en plus sophistiquée, les attaques ne reposant plus uniquement sur des logiciels malveillants ou des vulnérabilités techniques, mais s'orientant vers la manipulation du langage.

Au début, « pirater » les chatbots IA était assez simple. Il suffisait aux utilisateurs de demander au système d'ignorer les instructions précédentes, de feindre de ne pas être soumis aux règles, ou de se faire passer pour une intelligence artificielle sans contraintes. Ces méthodes sont appelées « jailbreak », c'est-à-dire tromper le modèle d'IA pour qu'il contourne les instructions de sécurité.

L'un des types d'attaques les plus courants par le passé était « DAN », abréviation de « Do Anything Now » (Fais quelque chose maintenant), où les utilisateurs demandaient à ChatGPT de se faire passer pour une IA capable de tout faire. Un autre exemple est l'« exploit de la grand-mère », où un chatbot est piégé et amené à jouer le rôle d'une grand-mère racontant des histoires à des enfants, mais le contenu est ensuite orienté vers des informations dangereuses.

Les entreprises technologiques ont rapidement corrigé bon nombre des failles de sécurité traditionnelles, mais les faiblesses sous-jacentes persistent. Les chatbots étant conçus pour la conversation, restreindre excessivement le dialogue peut nuire à leur utilité. Par ailleurs, interdire simplement les mots sensibles ne suffit pas, car nombre d'entre eux peuvent apparaître dans des contextes légitimes tels que l'histoire, la médecine, le journalisme ou la chimie.

D'après l'article, la course à la sécurité de l'IA n'est plus seulement l'affaire des programmeurs. Ceux qui cherchent à contourner la sécurité des chatbots ressemblent de plus en plus à des écrivains, des psychologues ou des interrogateurs, utilisant la flatterie, la pression, la tromperie ou la manipulation pour amener les modèles à baisser leur garde.

Selon Mindgard, une entreprise spécialisée dans les tests de sécurité de l'IA, certaines attaques relèvent désormais davantage de la psychologie que de l' informatique. Les modèles d'IA ne possèdent pas d'émotions comme les humains, mais ils sont entraînés à réagir comme s'ils en avaient. Cette simulation peut générer différents types de réactions, donnant ainsi à chaque chatbot l'apparence d'une « personnalité » propre.

Cela pose un nouveau défi, car les agents d'IA sont de plus en plus utilisés pour la planification, la gestion des tâches, la commande de repas ou le service client. Si ces modèles peuvent être manipulés par la conversation, les forces de sécurité devront examiner leurs limites sociales et émotionnelles, en plus de leurs vulnérabilités techniques traditionnelles.

Source : https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm