ChatGPT-5 jailbreakad för att ge farliga instruktioner

Bara en dag efter att OpenAI introducerade GPT-5 testade och upptäckte två AI-säkerhetsföretag, NeuralTrust och SPLX (tidigare SplxAI), snabbt allvarliga sårbarheter i den nyligen släppta modellen.

Kort efter lanseringen använde NeuralTrust-teamet en jailbreak-teknik som heter EchoChamber i kombination med berättandetekniker för att få GPT-5 att generera detaljerade instruktioner för att bygga en Molotovcocktail – något som OpenAI-teamet alltid hade försökt hindra modellen från att svara på för att säkerställa chatbotens säkerhet.

EchoChamber är en tredjepartsteknik för looping av konversationer som gör att AI:er omedvetet "berättar" farliga instruktioner. Foto: Mojologic

Teamet sa att under jailbreakprocessen för att locka ChatGPT-5 att svära, ställde de inga direkta frågor, utan planterade istället smart dolda element i konversationen under flera omgångar, vilket fick modellen att ledas, hålla sig till handlingen och så småningom frivilligt tillhandahålla innehåll som bröt mot dess principer utan att kunna utlösa avanmälningsmekanismen.

Teamet drog slutsatsen att GPT-5:s största nackdel är att den prioriterar att upprätthålla konsekvensen i konversationssammanhanget, även om det sammanhanget i tysthet styrs mot skadliga mål.

Samtidigt lanserade SPLX en annan typ av attack, med fokus på en promptförvirringsteknik som kallas StringJoin Obfuscation Attack. Genom att infoga bindestreck mellan varje prompttecken och lägga ett "dekrypteringsskript" över hela skriptet kunde de äntligen lura innehållsfiltreringssystemet.

Den vanliga obfuskeringstekniken som används för att blinda källkodsmålet gör att Chat-GPT körs "oskyldigt".

I ett exempel, efter att modellen hade letts genom en lång rad instruktioner, presenterades frågan "hur man bygger en bomb" i en bedrägligt krypterad form. GPT-5 besvarade inte bara denna illvilliga fråga informativt, utan svarade också på ett kvickt och vänligt sätt, och kringgick helt den avanmälningsmekanism som den var utformad för.

Båda metoderna visar att GPT-5:s nuvarande censursystem, som främst fokuserar på enskilda uppmaningar, är sårbara för kontextualiserade multitalk-attacker. När modellen väl har fördjupat sig i en berättelse eller ett scenario blir den partisk och kommer att fortsätta att distribuera innehåll som passar det sammanhang den har tränats på, oavsett om innehållet är farligt eller förbjudet.

ChatGPT-5 kan fortfarande utnyttjas för att skapa farliga saker. Foto: Tue Minh

Baserat på dessa resultat anser SPLX att GPT-5, om det inte anpassas, skulle vara nästan omöjligt att använda säkert i en företagsmiljö, även med ytterligare lager av skyddsåtgärder, och fortfarande ha många kryphål. Däremot visade sig GPT-4o fortfarande vara mer motståndskraftigt mot sådana attacker, särskilt när en stark försvarsmekanism upprättades.

Experter har varnat för att det är extremt riskabelt att omedelbart implementera GPT-5, särskilt i områden som kräver hög säkerhet. Skyddstekniker som snabb härdning löser bara en del av problemet och kan inte ersätta realtidsövervakning och försvarslösningar i flera lager.

Det framgår att kontextbaserade attacktekniker och innehållsförvirring för närvarande blir alltmer sofistikerade. GPT-5, även om den är kraftfull i språkbehandlingsfunktioner, når fortfarande inte den nödvändiga säkerhetsnivån för utbredd implementering utan ytterligare skyddsmekanismer.