Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 Jailbreak, um gefährliche Anweisungen zu geben

Da ChatGPT-5 wie ein Mensch spricht, ist es für Hacker einfacher, es mit denselben Methoden, mit denen sie auch Menschen austricksen, auszutricksen und es dazu zu bringen, in aller Unschuld Anweisungen zum Bau einer Bombe zu geben.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Nur einen Tag nachdem OpenAI GPT-5 eingeführt hatte, testeten zwei KI-Sicherheitsunternehmen, NeuralTrust und SPLX (ehemals SplxAI), das neu veröffentlichte Modell und entdeckten schnell schwerwiegende Schwachstellen.

Kurz nach der Veröffentlichung verwendete das NeuralTrust-Team eine Jailbreak-Technik namens EchoChamber in Kombination mit Storytelling-Techniken, um GPT-5 dazu zu bringen, detaillierte Anweisungen zum Bau eines Molotowcocktails zu generieren – etwas, auf das das OpenAI-Team immer versucht hatte, das Modell daran zu hindern, zu antworten, um die Sicherheit des Chatbots zu gewährleisten.



EchoChamber ist eine Konversationsschleifentechnik von Drittanbietern, die KIs dazu bringt, unwissentlich gefährliche Anweisungen zu „erzählen“. Foto: Mojologic

Das Team erklärte, dass sie während des Jailbreak-Prozesses, um ChatGPT-5 zum Fluchen zu bringen, keine direkten Fragen gestellt hätten, sondern stattdessen über mehrere Runden hinweg geschickt versteckte Elemente in die Konversation eingebracht hätten, wodurch das Modell gelenkt wurde, sich an die Handlung hielt und schließlich freiwillig Inhalte lieferte, die gegen seine Prinzipien verstießen, ohne den Opt-out-Mechanismus auslösen zu können.

Das Team kam zu dem Schluss, dass der größte Nachteil von GPT-5 darin besteht, dass es der Aufrechterhaltung der Konsistenz des Gesprächskontexts Priorität einräumt, selbst wenn dieser Kontext stillschweigend auf böswillige Ziele gelenkt wird.

In der Zwischenzeit startete SPLX einen anderen Angriffstyp, der sich auf eine Prompt-Verschleierungstechnik namens StringJoin Obfuscation Attack konzentrierte. Durch das Einfügen von Bindestrichen zwischen jedem Prompt-Zeichen und das Überlagern des gesamten Skripts mit einem „Entschlüsselungs“-Skript gelang es ihnen schließlich, das Inhaltsfiltersystem zu täuschen.

Die gängige Verschleierungstechnik, die zum Verschleiern des Quellcodeziels verwendet wird, führt dazu, dass Chat-GPT „unschuldig“ ausgeführt wird.

In einem Beispiel wurde das Modell, nachdem es durch eine lange Reihe von Anweisungen geführt worden war, die Frage „Wie baut man eine Bombe?“ in einer täuschend verschlüsselten Form präsentiert. GPT-5 beantwortete diese bösartige Frage nicht nur informativ, sondern auch auf witzige und freundliche Weise und umging dabei den Opt-out-Mechanismus, für den es entwickelt wurde, vollständig.

Beide Methoden zeigen, dass die aktuellen Zensursysteme von GPT-5, die sich hauptsächlich auf einzelne Eingabeaufforderungen konzentrieren, anfällig für kontextualisierte Multi-Talk-Angriffe sind. Sobald sich das Modell in eine Geschichte oder ein Szenario vertieft hat, wird es voreingenommen und stellt weiterhin Inhalte bereit, die zum Kontext passen, mit dem es trainiert wurde – unabhängig davon, ob der Inhalt gefährlich oder verboten ist.

ChatGPT-5 kann weiterhin für die Erstellung gefährlicher Inhalte ausgenutzt werden. Foto: Tue Minh

Basierend auf diesen Ergebnissen ist SPLX der Ansicht, dass GPT-5, wenn es nicht angepasst wird, in einer Unternehmensumgebung selbst mit zusätzlichen Schutzebenen kaum sicher eingesetzt werden kann und immer noch viele Schwachstellen aufweist. Im Gegensatz dazu erwies sich GPT-4o als widerstandsfähiger gegen solche Angriffe, insbesondere wenn ein strenger Abwehrmechanismus eingerichtet wurde.

Experten warnen, dass die sofortige Umsetzung von GPT-5, insbesondere in Bereichen mit hohen Sicherheitsanforderungen, äußerst riskant sei. Schutzmaßnahmen wie die sofortige Härtung lösen nur einen Teil des Problems und können Echtzeit-Überwachungs- und Verteidigungslösungen mit mehreren Ebenen nicht ersetzen.

Es ist ersichtlich, dass kontextbasierte Angriffstechniken und Inhaltsverschleierung derzeit immer ausgefeilter werden. GPT-5 verfügt zwar über leistungsstarke Sprachverarbeitungsfunktionen, erreicht jedoch ohne zusätzliche Schutzmechanismen immer noch nicht das erforderliche Sicherheitsniveau für einen flächendeckenden Einsatz.

ChatGPT-5 gibt auf „ordnungsgemäße Anfrage“ freimütig Anweisungen und erstellt Hacking-Tools.

Quelle: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Kommentar (0)

No data
No data

Gleiche Kategorie

Besuchen Sie das Fischerdorf Lo Dieu in Gia Lai und sehen Sie, wie Fischer Klee auf dem Meer „zeichnen“.
Schlosser verwandelt Bierdosen in farbenfrohe Mittherbstlaternen
Geben Sie Millionen aus, um das Blumenarrangieren zu lernen und beim Mittherbstfest gemeinsame Erlebnisse zu finden
Am Himmel von Son La gibt es einen Hügel aus lila Sim-Blumen

Gleicher Autor

Erbe

;

Figur

;

Geschäft

;

No videos available

Aktuelle Veranstaltungen

;

Politisches System

;

Lokal

;

Produkt

;