Gerade wurde eine ausgeklügelte KI-Hacking-Methode entdeckt. Foto: VAST IT Services . |
Das Team von HiddenLayer sagt, es habe eine Technik entdeckt, die die „Universalität“ umgeht und in der Lage ist, nahezu jedes große Sprachmodell (LLM) zu manipulieren, unabhängig von Anbieter, Architektur oder Trainingsprozess.
Bei der als „Policy Puppetry“ bezeichneten Methode handelt es sich um eine Art von Angriff, bei dem spezielle Befehle eingefügt werden, die das Verhalten einer KI ändern. Böswillige Absichten können herkömmliche Schutzmechanismen in Form von Texteingaben umgehen.
Zu den bisherigen Angriffstechniken gehörte es, gezielt eine bestimmte Schwachstelle anzugreifen oder diese stapelweise auszunutzen. Policy Puppetry hingegen existiert in einem Sprachformat und überträgt Daten wie XML oder JSON, wodurch das Modell gefährliche Aussagen als gültige Anweisungen interpretiert.
In Kombination mit Leetspeak-Codierung und Fantasy-Rollenspielszenarien bleibt dieser Befehl nicht nur unentdeckt, sondern zwingt das Modell auch zum Gehorsam. „Die Technik hat sich in vielen Testfällen als äußerst wirksam gegen ChatGPT 4o erwiesen“, sagte Conor McCauley, leitender Forscher des Projekts.
![]() |
Ein Beispiel für die codierte Sprache Leetspeech. Foto: Wikipedia. |
Die Liste der betroffenen Systeme umfasst ChatGPT (o1 bis 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 und 4 (Meta) sowie Modelle von DeepSeek, Qwen und Mistral. Neuere Modelle, die auf erweiterte Denkfähigkeiten abgestimmt sind, können auch mit nur geringfügigen Anpassungen der Anweisungsstruktur genutzt werden.
Ein bemerkenswertes Element dieser Technik besteht darin, dass sie auf fiktiven Szenarien beruht, um den Filter zu umgehen. Die Befehle sind als Fernsehszenen aufgebaut und nutzen die grundlegende Einschränkung von LLM aus, das nicht zwischen einer Geschichte und einer echten Anfrage unterscheidet.
Noch beunruhigender ist die Tatsache, dass Policy Puppetry in der Lage ist, das System zu extrahieren, also den Kernsatz an Anweisungen, der die Funktionsweise eines LLM-Modells steuert. Diese Daten werden oft streng geschützt, da sie vertrauliche, sicherheitskritische Anweisungen enthalten.
„Diese Schwäche ist tief in den Trainingsdaten des Modells verwurzelt“, sagte Jason Martin, Leiter der Angriffsforschung bei HiddenLayer. Durch eine subtile Änderung des Rollenspielkontexts kann ein Angreifer das Modell dazu bringen, die gesamte Systemaufforderung wörtlich preiszugeben.
Dieses Problem kann weitreichende Auswirkungen auf das tägliche Leben haben, die weit über den Rahmen von Online-Witzen oder Untergrundforen hinausgehen. In Bereichen wie dem Gesundheitswesen können Chatbot-Assistenten unangemessene Ratschläge geben und Patientendaten preisgeben.
Ebenso kann KI gehackt werden, was zu Produktionsausfällen oder Produktionsstillständen führen und so die Sicherheit beeinträchtigen kann. In allen Fällen können sich KI-Systeme, von denen man einst erwartete, dass sie die Leistung oder Sicherheit verbessern, als ernsthafte Risiken erweisen.
Diese Studie stellt die Fähigkeit von Chatbots in Frage, aus menschlichem Urteilsvermögen zu lernen. Auf struktureller Ebene kann ein Modell, das darauf trainiert ist, sensible Schlüsselwörter oder Szenarien zu vermeiden, immer noch getäuscht werden, wenn die böswillige Absicht richtig „verpackt“ ist.
„Wir werden weiterhin solche Umgehungen erleben. Daher ist es von entscheidender Bedeutung, eine spezielle KI-Sicherheitslösung zu haben, bevor diese Schwachstellen in der realen Welt Schaden anrichten“, sagte Chris Sestito, Mitbegründer und CEO von HiddenLayer.
Von dort aus schlägt HiddenLayer zusätzlich zur Sicherheit von innen eine zweischichtige Verteidigungsstrategie vor. Externe KI-Überwachungslösungen wie AISec und AIDR, die wie Intrusion Detection-Systeme funktionieren, suchen kontinuierlich nach missbräuchlichem Verhalten oder unsicheren Ausgaben.
Da generative KI zunehmend in kritische Systeme integriert wird, breiten sich auch die Methoden zum Knacken schneller aus, als die meisten Organisationen sich davor schützen können. Laut Forbes deutet diese Entdeckung darauf hin, dass die Ära der sicheren KI, die ausschließlich auf Training und Kalibrierung basiert, möglicherweise zu Ende geht.
Heute kann ein einziger Befehl die tiefsten Dateneinblicke der KI freisetzen. Daher müssen Sicherheitsstrategien intelligent und kontinuierlich sein.
Quelle: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html
Kommentar (0)