ChatGPT-5 jailbreaket for å gi farlige instruksjoner

Bare én dag etter at OpenAI introduserte GPT-5, testet to AI-sikkerhetsselskaper, NeuralTrust og SPLX (tidligere SplxAI), og oppdaget raskt alvorlige sårbarheter i den nylig utgitte modellen.

Kort tid etter utgivelsen brukte NeuralTrust-teamet en jailbreak-teknikk kalt EchoChamber kombinert med historiefortellingsteknikker for å få GPT-5 til å generere detaljerte instruksjoner for å bygge en Molotov-cocktail – noe OpenAI-teamet alltid hadde prøvd å forhindre at modellen svarte på for å sikre chatbotens sikkerhet.

EchoChamber er en tredjeparts samtale-loopteknikk som får AI-er til ubevisst å «fortelle» farlige instruksjoner. Foto: Mojologic

Teamet sa at under jailbreak-prosessen for å lokke ChatGPT-5 til å banne, stilte de ingen direkte spørsmål, men plantet i stedet smart skjulte elementer i samtalen over flere runder, noe som førte til at modellen ble ledet, holdt seg til handlingen og til slutt frivillig leverte innhold som brøt prinsippene uten å kunne utløse avmeldingsmekanismen.

Teamet konkluderte med at GPT-5s største ulempe er at den prioriterer å opprettholde konsistensen i samtalekonteksten, selv om den konteksten i stillhet styres mot ondsinnede mål.

I mellomtiden lanserte SPLX en annen type angrep, med fokus på en prompt-obfuskasjonsteknikk kalt StringJoin Obfuscation Attack. Ved å sette inn bindestreker mellom hvert prompttegn og legge hele skriptet over med et "dekrypteringsskript", klarte de endelig å lure innholdsfiltreringssystemet.

Den vanlige obfuskeringsteknikken som brukes for å blinde kildekodemålet, gjør at Chat-GPT kjøres "uskyldig".

I ett eksempel, etter at modellen ble ledet gjennom en lang rekke instruksjoner, ble spørsmålet «hvordan man bygger en bombe» presentert i en villedende kryptert form. GPT-5 besvarte ikke bare dette ondsinnede spørsmålet informativt, men svarte også på en vittig og vennlig måte, og omgikk fullstendig bortvelgelsesmekanismen som den var designet for.

Begge metodene viser at GPT-5s nåværende sensursystemer, som primært fokuserer på enkeltstående spørsmål, er sårbare for kontekstualiserte flersnakkangrep. Når modellen har fordypet seg i en historie eller et scenario, blir den partisk og vil fortsette å distribuere innhold som passer til konteksten den har blitt trent på, uavhengig av om innholdet er farlig eller forbudt.

ChatGPT-5 kan fortsatt utnyttes til å lage farlige ting. Foto: Tue Minh

Basert på disse resultatene mener SPLX at GPT-5, hvis den ikke tilpasses, ville være nesten umulig å bruke trygt i et bedriftsmiljø, selv med ekstra lag med beskyttelseskommandoer, og fortsatt har mange smutthull. I motsetning til dette viste GPT-4o seg fortsatt å være mer motstandsdyktig mot slike angrep, spesielt når en tett forsvarsmekanisme ble satt opp.

Eksperter har advart om at det er ekstremt risikabelt å sette GPT-5 ut i livet med en gang, spesielt i områder som krever høy sikkerhet. Beskyttelsesteknikker som rask herding løser bare deler av problemet og kan ikke erstatte flerlags overvåkings- og forsvarsløsninger i sanntid.

Det kan sees at kontekstbaserte angrepsteknikker og innholdsforvirring for tiden blir stadig mer sofistikerte. GPT-5, selv om den har kraftige språkbehandlingsmuligheter, når fortsatt ikke det nødvendige sikkerhetsnivået for utbredt distribusjon uten ytterligere beskyttelsesmekanismer.