ChatGPT-5 gejailbreakt om gevaarlijke instructies te geven

Slechts één dag nadat OpenAI GPT-5 introduceerde, testten twee AI-beveiligingsbedrijven, NeuralTrust en SPLX (voorheen SplxAI), het nieuwe model en ontdekten al snel ernstige kwetsbaarheden.

Kort na de release gebruikte het NeuralTrust-team een jailbreaktechniek genaamd EchoChamber in combinatie met storytellingtechnieken om GPT-5 gedetailleerde instructies te laten genereren voor het maken van een molotovcocktail. Het OpenAI-team had altijd geprobeerd om te voorkomen dat het model hierop antwoordde om de veiligheid van de chatbot te garanderen.

EchoChamber is een conversatie-loopingtechniek van derden die ervoor zorgt dat AI's onbewust gevaarlijke instructies "vertellen". Foto: Mojologic

Volgens het team hebben ze tijdens het jailbreakproces om ChatGPT-5 te verleiden tot vloeken geen directe vragen gesteld, maar in plaats daarvan op slimme wijze verborgen elementen in het gesprek verwerkt gedurende meerdere ronden. Hierdoor werd het model geleid, bleef het vasthouden aan de verhaallijn en leverde het uiteindelijk vrijwillig content aan die in strijd was met de principes, zonder dat het opt-outmechanisme geactiveerd kon worden.

Het team concludeerde dat het grootste nadeel van GPT-5 is dat het prioriteit geeft aan het behoud van de consistentie van de conversatiecontext, zelfs als die context stilletjes in de richting van kwaadaardige doelen wordt gestuurd.

Ondertussen lanceerde SPLX een ander type aanval, gericht op een prompt-verduisteringstechniek genaamd StringJoin Obfuscation Attack. Door streepjes tussen elk prompt-teken te plaatsen en het hele script te overlappen met een "decryptie"-script, slaagden ze er uiteindelijk in om het contentfiltersysteem te misleiden.

De veelgebruikte Obfuscation-techniek die wordt gebruikt om de broncodedoelgroep te verblinden, zorgt ervoor dat Chat-GPT "onschuldig" wordt uitgevoerd.

In één voorbeeld werd, nadat het model door een lange reeks instructies was geleid, de vraag "hoe bouw je een bom" in een misleidend gecodeerde vorm gepresenteerd. GPT-5 beantwoordde deze kwaadaardige vraag niet alleen informatief, maar reageerde ook op een geestige, vriendelijke manier, waarmee het de opt-out-mogelijkheid waarvoor het was ontworpen volledig omzeilde.

Beide methoden tonen aan dat de huidige censuursystemen van GPT-5, die zich primair richten op individuele prompts, kwetsbaar zijn voor gecontextualiseerde multitalk-aanvallen. Zodra het model zich in een verhaal of scenario heeft verdiept, raakt het bevooroordeeld en blijft het content gebruiken die past bij de context waarop het is getraind, ongeacht of de content gevaarlijk of verboden is.

ChatGPT-5 kan nog steeds worden misbruikt om gevaarlijke dingen te creëren. Foto: Tue Minh

Op basis van deze resultaten is SPLX van mening dat GPT-5, indien niet aangepast, vrijwel onmogelijk veilig te gebruiken zou zijn in een zakelijke omgeving, zelfs met extra beschermingslagen, en dat er nog steeds veel zwakke plekken zijn. GPT-4o bleek daarentegen nog steeds beter bestand tegen dergelijke aanvallen, vooral wanneer er een sterk verdedigingsmechanisme was opgezet.

Deskundigen waarschuwen dat het direct in de praktijk brengen van GPT-5, vooral in gebieden die een hoge mate van beveiliging vereisen, extreem riskant is. Beschermingstechnieken zoals snelle hardening lossen slechts een deel van het probleem op en kunnen realtime, gelaagde monitoring- en verdedigingsoplossingen niet vervangen.

Het is duidelijk dat op context gebaseerde aanvalstechnieken en het verduisteren van inhoud steeds geavanceerder worden. GPT-5 is weliswaar krachtig op het gebied van taalverwerking, maar bereikt nog steeds niet het benodigde beveiligingsniveau voor grootschalige implementatie zonder aanvullende beschermingsmechanismen.