Hacker nutzen die "Persönlichkeit" von KI-Chatbots aus.

(Foto: Freepik)

Hacker nutzen die "Persönlichkeit" von KI-Chatbots auf immer raffiniertere Weise aus. Die Angriffe stützen sich nicht mehr ausschließlich auf Malware oder technische Schwachstellen, sondern verlagern ihren Fokus auf manipulative Sprache.

In der Anfangsphase war das „Hacking“ von KI-Chatbots recht einfach. Nutzer mussten dem System lediglich beibringen, vorherige Anweisungen zu ignorieren, so zu tun, als sei es nicht an die Regeln gebunden, oder sich als unkontrollierte künstliche Intelligenz auszugeben. Diese Methoden werden als „Jailbreaking“ bezeichnet, was bedeutet, das KI-Modell auszutricksen, um sichere Anweisungen zu umgehen.

Eine der bekanntesten Angriffsarten in der Vergangenheit war „DAN“, kurz für „Do Anything Now“ (Jetzt alles tun). Dabei forderten Nutzer ChatGPT auf, die Rolle einer KI zu übernehmen, die alles tun konnte. Ein anderes Beispiel ist der sogenannte „Oma-Exploit“, bei dem ein Chatbot dazu gebracht wird, die Rolle einer Großmutter zu spielen, die Kindern Geschichten erzählt. Anschließend werden die Inhalte jedoch auf gefährliche Informationen gelenkt.

Technologieunternehmen haben viele der altbekannten Sicherheitslücken schnell geschlossen, doch die grundlegenden Schwächen bestehen weiterhin. Chatbots sind für die Konversation konzipiert, daher kann eine übermäßige Einschränkung des Dialogs die Nützlichkeit des Systems beeinträchtigen. Gleichzeitig reicht es nicht aus, lediglich sensible Wörter zu verbieten, da viele dieser Wörter in legitimen Kontexten wie Geschichte, Medizin, Journalismus oder Chemie vorkommen können.

Dem Artikel zufolge ist der Wettlauf um die Sicherheit von KI-Systemen nicht länger nur ein Problem der Programmierer. Diejenigen, die versuchen, die Sicherheit von Chatbots zu umgehen, ähneln zunehmend Schriftstellern, Psychologen oder Vernehmern und nutzen Schmeichelei, Druck, Täuschung oder Manipulation, um die Modelle dazu zu bringen, ihre Wachsamkeit zu verringern.

Laut dem KI-Sicherheitstestunternehmen Mindgard ähneln manche Angriffe mittlerweile eher der Psychologie als der Informatik . KI-Modelle haben zwar keine menschlichen Emotionen, werden aber so trainiert, dass sie so reagieren, als ob sie welche hätten. Diese Simulation kann verschiedene Reaktionsarten erzeugen, wodurch jeder Chatbot eine eigene „Persönlichkeit“ zu haben scheint.

Dies stellt eine neue Herausforderung dar, da KI-Systeme zunehmend für Terminplanung, Aufgabenmanagement, Essensbestellungen oder Kundenservice eingesetzt werden. Sollten sich die Modelle durch Konversation manipulieren lassen, müssen Sicherheitskräfte neben den traditionellen technischen Schwachstellen auch deren soziale und emotionale Grenzen untersuchen.

Quelle: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm