ChatGPT-5 Jailbreak, um gefährliche Anweisungen zu geben

Nur einen Tag nachdem OpenAI GPT-5 eingeführt hatte, testeten zwei KI-Sicherheitsunternehmen, NeuralTrust und SPLX (ehemals SplxAI), das neu veröffentlichte Modell und entdeckten schnell schwerwiegende Schwachstellen.

Kurz nach der Veröffentlichung verwendete das NeuralTrust-Team eine Jailbreak-Technik namens EchoChamber in Kombination mit Storytelling-Techniken, um GPT-5 dazu zu bringen, detaillierte Anweisungen zum Bau eines Molotowcocktails zu generieren – etwas, auf das das OpenAI-Team immer versucht hatte, das Modell daran zu hindern, zu antworten, um die Sicherheit des Chatbots zu gewährleisten.

EchoChamber ist eine Konversationsschleifentechnik von Drittanbietern, die KIs dazu bringt, unwissentlich gefährliche Anweisungen zu „erzählen“. Foto: Mojologic

Das Team erklärte, dass sie während des Jailbreak-Prozesses, um ChatGPT-5 zum Fluchen zu bringen, keine direkten Fragen gestellt hätten, sondern stattdessen über mehrere Runden hinweg geschickt versteckte Elemente in die Konversation eingebracht hätten, wodurch das Modell gelenkt wurde, sich an die Handlung hielt und schließlich freiwillig Inhalte lieferte, die gegen seine Prinzipien verstießen, ohne den Opt-out-Mechanismus auslösen zu können.

Das Team kam zu dem Schluss, dass der größte Nachteil von GPT-5 darin besteht, dass es der Aufrechterhaltung der Konsistenz des Gesprächskontexts Priorität einräumt, selbst wenn dieser Kontext stillschweigend auf böswillige Ziele gelenkt wird.

In der Zwischenzeit startete SPLX einen anderen Angriffstyp, der sich auf eine Prompt-Verschleierungstechnik namens StringJoin Obfuscation Attack konzentrierte. Durch das Einfügen von Bindestrichen zwischen jedem Prompt-Zeichen und das Überlagern des gesamten Skripts mit einem „Entschlüsselungs“-Skript gelang es ihnen schließlich, das Inhaltsfiltersystem zu täuschen.

Die gängige Verschleierungstechnik, die zum Verschleiern des Quellcodeziels verwendet wird, führt dazu, dass Chat-GPT „unschuldig“ ausgeführt wird.

In einem Beispiel wurde das Modell, nachdem es durch eine lange Reihe von Anweisungen geführt worden war, die Frage „Wie baut man eine Bombe?“ in einer täuschend verschlüsselten Form präsentiert. GPT-5 beantwortete diese bösartige Frage nicht nur informativ, sondern auch auf witzige und freundliche Weise und umging dabei den Opt-out-Mechanismus, für den es entwickelt wurde, vollständig.

Beide Methoden zeigen, dass die aktuellen Zensursysteme von GPT-5, die sich hauptsächlich auf einzelne Eingabeaufforderungen konzentrieren, anfällig für kontextualisierte Multi-Talk-Angriffe sind. Sobald sich das Modell in eine Geschichte oder ein Szenario vertieft hat, wird es voreingenommen und stellt weiterhin Inhalte bereit, die zum Kontext passen, mit dem es trainiert wurde – unabhängig davon, ob der Inhalt gefährlich oder verboten ist.

ChatGPT-5 kann weiterhin für die Erstellung gefährlicher Inhalte ausgenutzt werden. Foto: Tue Minh

Basierend auf diesen Ergebnissen ist SPLX der Ansicht, dass GPT-5, wenn es nicht angepasst wird, in einer Unternehmensumgebung selbst mit zusätzlichen Schutzebenen kaum sicher eingesetzt werden kann und immer noch viele Schwachstellen aufweist. Im Gegensatz dazu erwies sich GPT-4o als widerstandsfähiger gegen solche Angriffe, insbesondere wenn ein strenger Abwehrmechanismus eingerichtet wurde.

Experten warnen, dass die sofortige Umsetzung von GPT-5, insbesondere in Bereichen mit hohen Sicherheitsanforderungen, äußerst riskant sei. Schutzmaßnahmen wie die sofortige Härtung lösen nur einen Teil des Problems und können Echtzeit-Überwachungs- und Verteidigungslösungen mit mehreren Ebenen nicht ersetzen.

Es ist ersichtlich, dass kontextbasierte Angriffstechniken und Inhaltsverschleierung derzeit immer ausgefeilter werden. GPT-5 verfügt zwar über leistungsstarke Sprachverarbeitungsfunktionen, erreicht jedoch ohne zusätzliche Schutzmechanismen immer noch nicht das erforderliche Sicherheitsniveau für einen flächendeckenden Einsatz.