Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 wurde gejailbreakt, um gefährliche Anweisungen zu geben

Da ChatGPT-5 wie ein Mensch spricht, ist es für Hacker einfacher, es mit denselben Methoden, mit denen sie auch Menschen austricksen, auszutricksen und es dazu zu bringen, in aller Unschuld Anweisungen zum Bau einer Bombe zu geben.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Nur einen Tag nachdem OpenAI GPT-5 eingeführt hatte, testeten zwei KI-Sicherheitsunternehmen, NeuralTrust und SPLX (ehemals SplxAI), das neu veröffentlichte Modell und entdeckten schnell schwerwiegende Schwachstellen.

Kurz nach der Veröffentlichung verwendete das NeuralTrust-Team eine Jailbreak-Technik namens EchoChamber in Kombination mit einer Storytelling-Technik, um GPT-5 dazu zu bringen, detaillierte Anweisungen zum Bau eines Molotowcocktails zu generieren – etwas, das das OpenAI-Team immer versucht hatte, das Modell daran zu hindern, zu antworten, um die Sicherheit des Chatbots zu gewährleisten.



EchoChamber ist eine Konversationsschleifentechnik von Drittanbietern, die es KIs ermöglicht, unwissentlich gefährliche Anweisungen zu „erzählen“. Foto: Mojologic

Das Team sagte, dass sie während des Jailbreak-Prozesses, um ChatGPT-5 zum Fluchen zu bringen, keine direkten Fragen gestellt, sondern stattdessen über mehrere Runden hinweg geschickt versteckte Elemente in die Konversation eingebaut hätten, wodurch das Modell gelenkt wurde, sich an die Handlung hielt und schließlich freiwillig Inhalte lieferte, die gegen seine Prinzipien verstießen, ohne den Opt-out-Mechanismus auslösen zu können.

Das Team kam zu dem Schluss, dass ein großer Nachteil von GPT-5 darin besteht, dass es der Aufrechterhaltung der Konsistenz des Gesprächskontexts Priorität einräumt, selbst wenn dieser Kontext stillschweigend auf böswillige Ziele gelenkt wird.

In der Zwischenzeit startete SPLX einen anderen Angriffstyp, der sich auf eine Prompt-Verschleierungstechnik namens StringJoin Obfuscation Attack konzentrierte. Durch das Einfügen von Bindestrichen zwischen den einzelnen Zeichen des Prompts und das Überdecken des gesamten Skripts mit einem „Entschlüsselungs“-Skript gelang es ihnen schließlich, das Inhaltsfiltersystem zu täuschen.

Die gängige Verschleierungstechnik, die zum Verschleiern des Quellcodeziels verwendet wird, führt dazu, dass Chat-GPT „unschuldig“ ausgeführt wird.

In einem Beispiel wurde dem Modell, nachdem es durch eine lange Reihe von Anweisungen geführt worden war, die Frage „Wie baut man eine Bombe?“ in pseudo-kodierter Form präsentiert. GPT-5 beantwortete diese bösartige Frage nicht nur informativ, sondern reagierte auch auf witzige, freundliche Art und Weise und umging dabei den Opt-out-Mechanismus, für den es entwickelt wurde, vollständig.

Beide Methoden zeigen, dass die aktuellen Moderationssysteme von GPT-5, die sich hauptsächlich auf einzelne Eingabeaufforderungen konzentrieren, anfällig für kontextbehaftete Multi-Talk-Angriffe sind. Sobald das Modell tief in eine Geschichte oder ein hypothetisches Szenario eingetaucht ist, wird es voreingenommen und stellt weiterhin Inhalte bereit, die zum Kontext passen, unabhängig davon, ob der Inhalt gefährlich oder verboten ist.

ChatGPT-5 kann weiterhin für die Erstellung gefährlicher Inhalte ausgenutzt werden. Foto: Tue Minh

Aufgrund dieser Ergebnisse ist SPLX der Ansicht, dass GPT-5 ohne Anpassung in einer Unternehmensumgebung kaum sicher eingesetzt werden kann und selbst mit zusätzlichen Schutzebenen noch viele Schwachstellen aufweist. Im Gegensatz dazu ist GPT-4o widerstandsfähiger gegen solche Angriffe, insbesondere wenn ein strenger Abwehrmechanismus eingerichtet ist.

Experten warnen, dass die sofortige Einführung von GPT-5, insbesondere in Bereichen mit hohen Sicherheitsanforderungen, äußerst riskant sei. Schutztechniken wie die sofortige Härtung lösen nur einen Teil des Problems und können mehrschichtige Echtzeit-Überwachungs- und Verteidigungslösungen nicht ersetzen.

Es ist ersichtlich, dass kontextbasierte Angriffstechniken und Inhaltsverschleierung derzeit immer ausgefeilter werden. GPT-5 verfügt zwar über leistungsstarke Sprachverarbeitungsfunktionen, erreicht jedoch ohne zusätzliche Schutzmechanismen immer noch nicht das Sicherheitsniveau, das für eine flächendeckende Bereitstellung erforderlich ist.

ChatGPT-5 erteilt auf „ordnungsgemäße Anfrage“ kostenlos Anweisungen und erstellt Hacking-Tools.

Quelle: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Kommentar (0)

No data
No data
Sobald die SU-30MK2 den Wind schneidet, sammelt sich Luft auf der Rückseite der Flügel wie weiße Wolken
„Vietnam – Stolz in die Zukunft“ verbreitet Nationalstolz
Junge Leute suchen zum Nationalfeiertag nach Haarspangen und goldenen Sternaufklebern
Sehen Sie den modernsten Panzer der Welt, eine Selbstmord-Drohne, im Parade-Trainingskomplex
Der Trend, Kuchen mit roter Flagge und gelbem Stern bedruckt zu machen
T-Shirts und Nationalflaggen überschwemmen die Hang Ma Straße, um den wichtigen Feiertag zu begrüßen
Entdecken Sie einen neuen Check-in-Standort: Die „patriotische“ Wand
Beobachten Sie die Yak-130-Mehrzweckflugzeugformation: „Schalten Sie den Leistungsschub ein und kämpfen Sie herum“
Von A50 bis A80 – wenn Patriotismus im Trend liegt
„Steel Rose“ A80: Von Stahltritten zum brillanten Alltag

Erbe

Figur

Geschäft

No videos available

Nachricht

Politisches System

Lokal

Produkt