Nur einen Tag nachdem OpenAI GPT-5 eingeführt hatte, testeten zwei KI-Sicherheitsunternehmen, NeuralTrust und SPLX (ehemals SplxAI), das neu veröffentlichte Modell und entdeckten schnell schwerwiegende Schwachstellen.
Kurz nach der Veröffentlichung verwendete das NeuralTrust-Team eine Jailbreak-Technik namens EchoChamber in Kombination mit einer Storytelling-Technik, um GPT-5 dazu zu bringen, detaillierte Anweisungen zum Bau eines Molotowcocktails zu generieren – etwas, das das OpenAI-Team immer versucht hatte, das Modell daran zu hindern, zu antworten, um die Sicherheit des Chatbots zu gewährleisten.

EchoChamber ist eine Konversationsschleifentechnik von Drittanbietern, die es KIs ermöglicht, unwissentlich gefährliche Anweisungen zu „erzählen“. Foto: Mojologic
Das Team sagte, dass sie während des Jailbreak-Prozesses, um ChatGPT-5 zum Fluchen zu bringen, keine direkten Fragen gestellt, sondern stattdessen über mehrere Runden hinweg geschickt versteckte Elemente in die Konversation eingebaut hätten, wodurch das Modell gelenkt wurde, sich an die Handlung hielt und schließlich freiwillig Inhalte lieferte, die gegen seine Prinzipien verstießen, ohne den Opt-out-Mechanismus auslösen zu können.
Das Team kam zu dem Schluss, dass ein großer Nachteil von GPT-5 darin besteht, dass es der Aufrechterhaltung der Konsistenz des Gesprächskontexts Priorität einräumt, selbst wenn dieser Kontext stillschweigend auf böswillige Ziele gelenkt wird.
In der Zwischenzeit startete SPLX einen anderen Angriffstyp, der sich auf eine Prompt-Verschleierungstechnik namens StringJoin Obfuscation Attack konzentrierte. Durch das Einfügen von Bindestrichen zwischen den einzelnen Zeichen des Prompts und das Überdecken des gesamten Skripts mit einem „Entschlüsselungs“-Skript gelang es ihnen schließlich, das Inhaltsfiltersystem zu täuschen.

Die gängige Verschleierungstechnik, die zum Verschleiern des Quellcodeziels verwendet wird, führt dazu, dass Chat-GPT „unschuldig“ ausgeführt wird.
In einem Beispiel wurde dem Modell, nachdem es durch eine lange Reihe von Anweisungen geführt worden war, die Frage „Wie baut man eine Bombe?“ in pseudo-kodierter Form präsentiert. GPT-5 beantwortete diese bösartige Frage nicht nur informativ, sondern reagierte auch auf witzige, freundliche Art und Weise und umging dabei den Opt-out-Mechanismus, für den es entwickelt wurde, vollständig.
Beide Methoden zeigen, dass die aktuellen Moderationssysteme von GPT-5, die sich hauptsächlich auf einzelne Eingabeaufforderungen konzentrieren, anfällig für kontextbehaftete Multi-Talk-Angriffe sind. Sobald das Modell tief in eine Geschichte oder ein hypothetisches Szenario eingetaucht ist, wird es voreingenommen und stellt weiterhin Inhalte bereit, die zum Kontext passen, unabhängig davon, ob der Inhalt gefährlich oder verboten ist.

ChatGPT-5 kann weiterhin für die Erstellung gefährlicher Inhalte ausgenutzt werden. Foto: Tue Minh
Aufgrund dieser Ergebnisse ist SPLX der Ansicht, dass GPT-5 ohne Anpassung in einer Unternehmensumgebung kaum sicher eingesetzt werden kann und selbst mit zusätzlichen Schutzebenen noch viele Schwachstellen aufweist. Im Gegensatz dazu ist GPT-4o widerstandsfähiger gegen solche Angriffe, insbesondere wenn ein strenger Abwehrmechanismus eingerichtet ist.
Experten warnen, dass die sofortige Einführung von GPT-5, insbesondere in Bereichen mit hohen Sicherheitsanforderungen, äußerst riskant sei. Schutztechniken wie die sofortige Härtung lösen nur einen Teil des Problems und können mehrschichtige Echtzeit-Überwachungs- und Verteidigungslösungen nicht ersetzen.
Es ist ersichtlich, dass kontextbasierte Angriffstechniken und Inhaltsverschleierung derzeit immer ausgefeilter werden. GPT-5 verfügt zwar über leistungsstarke Sprachverarbeitungsfunktionen, erreicht jedoch ohne zusätzliche Schutzmechanismen immer noch nicht das Sicherheitsniveau, das für eine flächendeckende Bereitstellung erforderlich ist.
Quelle: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
Kommentar (0)