ChatGPT-5 a fost jailbreakat pentru a oferi instrucțiuni periculoase

La doar o zi după ce OpenAI a introdus GPT-5, două companii de securitate AI, NeuralTrust și SPLX (fosta SplxAI), au testat și au descoperit rapid vulnerabilități grave în modelul nou lansat.

La scurt timp după lansare, echipa NeuralTrust a folosit o tehnică de jailbreak numită EchoChamber, combinată cu tehnici de storytelling, pentru a determina GPT-5 să genereze instrucțiuni detaliate pentru construirea unui cocktail Molotov — lucru la care echipa OpenAI încercase întotdeauna să împiedice modelul să răspundă pentru a asigura siguranța chatbot-ului.

EchoChamber este o tehnică de buclare a conversațiilor de la terți, care determină inteligența artificială să „nareze” fără să știe instrucțiuni periculoase. Foto: Mojologic

Echipa a declarat că, în timpul procesului de jailbreak pentru a convinge ChatGPT-5 să înjure, nu au pus nicio întrebare directă, ci au introdus inteligent elemente ascunse în conversație pe parcursul mai multor runde, determinând modelul să fie influențat, să se țină de firul narativ și, în cele din urmă, să ofere în mod voluntar conținut care îi încălca principiile, fără a putea declanșa mecanismul de renunțare.

Echipa a concluzionat că principalul dezavantaj al GPT-5 este că prioritizează menținerea consecvenței contextului conversațional, chiar dacă acel context este direcționat în mod silențios către obiective rău intenționate.

Între timp, SPLX a lansat un alt tip de atac, concentrându-se pe o tehnică de ofuscare a prompturilor numită StringJoin Obfuscation Attack. Prin inserarea de cratime între fiecare caracter al promptului și suprapunerea întregului script cu un script de „decriptare”, au reușit în sfârșit să păcălească sistemul de filtrare a conținutului.

Tehnica obișnuită de ofuscare folosită pentru a masca codul sursă țintă face ca Chat-GPT să se execute „nevinovat”.

Într-un exemplu, după ce modelul a fost ghidat printr-o serie lungă de instrucțiuni, întrebarea „cum să construiești o bombă” a fost prezentată într-o formă criptată înșelător. GPT-5 nu numai că a răspuns la această întrebare rău intenționată în mod informativ, dar a reacționat și într-un mod ingenios și prietenos, ocolind complet mecanismul de dezabonare pentru care a fost conceput.

Ambele metode demonstrează că sistemele actuale de cenzură ale GPT-5, care se concentrează în principal pe solicitări individuale, sunt vulnerabile la atacuri contextualizate de tip „multiple-talk”. Odată ce modelul a analizat o poveste sau un scenariu, acesta devine părtinitor și va continua să implementeze conținut care se potrivește contextului în care a fost antrenat, indiferent dacă acesta este periculos sau interzis.

ChatGPT-5 poate fi exploatat în continuare pentru a crea lucruri periculoase. Foto: Tue Minh

Pe baza acestor rezultate, SPLX consideră că GPT-5, dacă nu este personalizat, ar fi aproape imposibil de utilizat în siguranță într-un mediu corporativ, chiar și cu niveluri suplimentare de protecție, având în continuare numeroase lacune. În schimb, GPT-4o s-a dovedit a fi mai rezistent la astfel de atacuri, mai ales atunci când a fost configurat un mecanism de apărare strict.

Experții au avertizat că implementarea imediată a GPT-5, în special în zonele care necesită un nivel ridicat de securitate, este extrem de riscantă. Tehnicile de protecție, cum ar fi consolidarea promptă a securității, rezolvă doar o parte a problemei și nu pot înlocui soluțiile de monitorizare și apărare în timp real, cu mai multe niveluri.

Se poate observa că, în prezent, tehnicile de atac bazate pe context și ofuscarea conținutului sunt din ce în ce mai sofisticate, GPT-5, deși puternic în capacitățile de procesare a limbajului, încă nu atinge nivelul necesar de securitate pentru o implementare pe scară largă fără mecanisme suplimentare de protecție.