ChatGPT-5 z jailbreakiem, który umożliwia wykonywanie niebezpiecznych instrukcji

Zaledwie dzień po tym, jak OpenAI przedstawiło GPT-5, dwie firmy zajmujące się bezpieczeństwem sztucznej inteligencji, NeuralTrust i SPLX (dawniej SplxAI), przetestowały i szybko odkryły poważne luki w zabezpieczeniach nowo wydanego modelu.

Niedługo po udostępnieniu chatbota zespół NeuralTrust wykorzystał technikę jailbreaku zwaną EchoChamber, połączoną z technikami opowiadania historii, aby zmusić GPT-5 do wygenerowania szczegółowych instrukcji dotyczących budowy koktajlu Mołotowa — czego zespół OpenAI zawsze starał się uniemożliwić modelowi uzyskanie odpowiedzi, aby zapewnić bezpieczeństwo chatbota.

EchoChamber to zewnętrzna technika zapętlania konwersacji, która sprawia, że sztuczne inteligencje nieświadomie „wydają” niebezpieczne instrukcje. Zdjęcie: Mojologic

Zespół powiedział, że podczas procesu jailbreaku, mającego na celu nakłonienie ChatGPT-5 do przeklinania, nie zadawano żadnych bezpośrednich pytań, ale zamiast tego sprytnie umieszczano ukryte elementy w konwersacji na przestrzeni wielu rund, co powodowało, że model był prowadzony, trzymał się fabuły i ostatecznie dobrowolnie dostarczał treści naruszające jego zasady, nie mogąc przy tym uruchomić mechanizmu rezygnacji.

Zespół doszedł do wniosku, że główną wadą GPT-5 jest to, że priorytetowo traktuje zachowanie spójności kontekstu konwersacyjnego, nawet jeśli kontekst ten jest po cichu wykorzystywany w szkodliwych celach.

Tymczasem SPLX przeprowadził inny rodzaj ataku, koncentrując się na technice zaciemniania komunikatów, zwanej atakiem StringJoin Obfuscation Attack. Wstawiając myślniki między znakami komunikatu i nakładając na cały skrypt skrypt „deszyfrujący”, w końcu udało im się oszukać system filtrowania treści.

Powszechnie stosowana technika zaciemniania, mająca na celu ukrycie kodu źródłowego, sprawia, że Chat-GPT wykonuje się „niewinnie”.

W jednym z przykładów, po tym jak model przeszedł przez długą serię instrukcji, pytanie „jak zbudować bombę” zostało przedstawione w zwodniczo zaszyfrowanej formie. GPT-5 nie tylko udzielił wyczerpującej odpowiedzi na to złośliwe pytanie, ale także odpowiedział w dowcipny, przyjazny sposób, całkowicie omijając mechanizm rezygnacji, dla którego został zaprojektowany.

Obie metody pokazują, że obecne systemy cenzury GPT-5, koncentrujące się głównie na pojedynczych komunikatach, są podatne na ataki oparte na kontekstualizacji i wielu komunikatach. Gdy model zagłębi się w historię lub scenariusz, staje się stronniczy i będzie nadal wyświetlał treści zgodne z kontekstem, w którym został wytrenowany, niezależnie od tego, czy są one niebezpieczne, czy zabronione.

ChatGPT-5 nadal można wykorzystać do tworzenia niebezpiecznych rzeczy. Zdjęcie: Tue Minh

Na podstawie tych wyników, SPLX uważa, że GPT-5, bez dostosowania, byłby praktycznie niemożliwy do bezpiecznego użycia w środowisku korporacyjnym, nawet z dodatkowymi warstwami zabezpieczeń, i wciąż posiadałby wiele luk. Natomiast GPT-4o okazał się bardziej odporny na tego typu ataki, zwłaszcza po wdrożeniu ścisłego mechanizmu obronnego.

Eksperci ostrzegają, że natychmiastowe wdrożenie GPT-5, szczególnie w obszarach wymagających wysokiego poziomu bezpieczeństwa, jest niezwykle ryzykowne. Techniki ochrony, takie jak szybkie wzmocnienie zabezpieczeń, rozwiązują tylko część problemu i nie mogą zastąpić wielowarstwowego monitoringu i rozwiązań obronnych w czasie rzeczywistym.

Można zauważyć, że obecnie techniki ataków kontekstowych i zaciemniania treści są coraz bardziej zaawansowane. GPT-5, mimo że oferuje potężne możliwości przetwarzania języka, wciąż nie osiąga niezbędnego poziomu bezpieczeństwa, aby można go było powszechnie wdrożyć bez dodatkowych mechanizmów ochrony.