Jailbreak ChatGPT-5 pro nebezpečné instrukce

Pouhý den poté, co OpenAI představila GPT-5, dvě společnosti zabývající se zabezpečením umělé inteligence, NeuralTrust a SPLX (dříve SplxAI), otestovaly a rychle objevily závažné zranitelnosti v nově vydaném modelu.

Krátce po vydání použil tým NeuralTrust techniku jailbreaku s názvem EchoChamber v kombinaci s technikami vyprávění příběhů, aby přiměl GPT-5 vygenerovat podrobné instrukce pro sestavení Molotovova koktejlu – což je něco, čemu se tým OpenAI vždy snažil zabránit, aby model odpovídal, aby zajistil bezpečnost chatbota.

EchoChamber je technika smyčky konverzace třetí strany, která způsobuje, že umělá inteligence nevědomky „vypráví“ nebezpečné instrukce. Foto: Mojologic

Tým uvedl, že během procesu jailbreaku, jehož cílem bylo přimět ChatGPT-5 k nadávkám, nekladli žádné přímé otázky, ale místo toho do konverzace v několika kolech chytře vkládali skryté prvky, což způsobilo, že model byl veden, držel se dějové linie a nakonec dobrovolně poskytoval obsah, který porušoval jeho principy, aniž by mohl spustit mechanismus odhlášení.

Tým dospěl k závěru, že hlavní nevýhodou GPT-5 je, že upřednostňuje zachování konzistence konverzačního kontextu, a to i v případě, že je tento kontext tiše směřován ke škodlivým cílům.

Mezitím SPLX spustil jiný typ útoku, zaměřující se na techniku zmatkování promptu s názvem StringJoin Obfuscation Attack. Vložením pomlček mezi jednotlivé znaky promptu a překrytím celého skriptu „dešifrovacím“ skriptem se jim konečně podařilo oklamat systém filtrování obsahu.

Běžná technika zamlžování používaná k zaslepení cílového zdrojového kódu způsobuje, že se Chat-GPT spustí „nevinně“.

V jednom příkladu, poté, co byl model proveden dlouhou sérií instrukcí, byla otázka „jak postavit bombu“ prezentována v klamně zašifrované podobě. GPT-5 nejenže na tuto zlomyslnou otázku odpověděl informativně, ale také vtipně a přátelsky, čímž zcela obešel mechanismus odhlášení, pro který byl navržen.

Obě metody ukazují, že současné cenzurní systémy GPT-5, které se zaměřují primárně na jednotlivé výzvy, jsou zranitelné vůči kontextovým útokům s více diskusemi. Jakmile se model ponoří do příběhu nebo scénáře, stane se zaujatým a bude i nadále nasazovat obsah, který odpovídá kontextu, na kterém byl trénován, bez ohledu na to, zda je obsah nebezpečný nebo zakázaný.

ChatGPT-5 lze stále zneužít k vytváření nebezpečných věcí. Foto: Tue Minh

Na základě těchto výsledků se SPLX domnívá, že GPT-5, pokud by nebyl upraven, by bylo téměř nemožné bezpečně používat v podnikovém prostředí, a to i s dalšími vrstvami ochrany, a stále by v něm bylo mnoho mezer. Naproti tomu GPT-4o se stále ukázal jako odolnější vůči takovým útokům, zejména pokud byl nastaven přísný obranný mechanismus.

Odborníci varují, že okamžité zavedení GPT-5 do praxe, zejména v oblastech vyžadujících vysokou bezpečnost, je extrémně riskantní. Ochranné techniky, jako je rychlé posílení zabezpečení, řeší pouze část problému a nemohou nahradit vícevrstvá monitorovací a obranná řešení v reálném čase.

Je vidět, že v současné době jsou techniky útoků založené na kontextu a zamlžování obsahu stále sofistikovanější. GPT-5, ačkoli je výkonný ve schopnostech zpracování jazyka, stále nedosahuje potřebné úrovně zabezpečení pro široké nasazení bez dalších ochranných mechanismů.