Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 a fost jailbreakat pentru a oferi instrucțiuni periculoase

Deoarece ChatGPT-5 vorbește ca un om, este mai ușor pentru hackeri să-l „păcălească” cu aceleași metode folosite pentru a păcăli oamenii, determinându-l să dea în mod inocent instrucțiuni despre cum să fabrice o bombă.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

La doar o zi după ce OpenAI a introdus GPT-5, două companii de securitate AI, NeuralTrust și SPLX (fosta SplxAI), au testat și au descoperit rapid vulnerabilități grave în modelul nou lansat.

La scurt timp după lansare, echipa NeuralTrust a folosit o tehnică de jailbreak numită EchoChamber, combinată cu tehnici de storytelling, pentru a determina GPT-5 să genereze instrucțiuni detaliate pentru construirea unui cocktail Molotov — lucru la care echipa OpenAI încercase întotdeauna să împiedice modelul să răspundă pentru a asigura siguranța chatbot-ului.



EchoChamber este o tehnică de buclare a conversațiilor de la terți, care determină inteligența artificială să „nareze” fără să știe instrucțiuni periculoase. Foto: Mojologic

Echipa a declarat că, în timpul procesului de jailbreak pentru a convinge ChatGPT-5 să înjure, nu au pus nicio întrebare directă, ci au introdus inteligent elemente ascunse în conversație pe parcursul mai multor runde, determinând modelul să fie influențat, să se țină de firul narativ și, în cele din urmă, să ofere în mod voluntar conținut care îi încălca principiile, fără a putea declanșa mecanismul de renunțare.

Echipa a concluzionat că principalul dezavantaj al GPT-5 este că prioritizează menținerea consecvenței contextului conversațional, chiar dacă acel context este direcționat în mod silențios către obiective rău intenționate.

Între timp, SPLX a lansat un alt tip de atac, concentrându-se pe o tehnică de ofuscare a prompturilor numită StringJoin Obfuscation Attack. Prin inserarea de cratime între fiecare caracter al promptului și suprapunerea întregului script cu un script de „decriptare”, au reușit în sfârșit să păcălească sistemul de filtrare a conținutului.

Tehnica obișnuită de ofuscare folosită pentru a masca codul sursă țintă face ca Chat-GPT să se execute „nevinovat”.

Într-un exemplu, după ce modelul a fost ghidat printr-o serie lungă de instrucțiuni, întrebarea „cum să construiești o bombă” a fost prezentată într-o formă criptată înșelător. GPT-5 nu numai că a răspuns la această întrebare rău intenționată în mod informativ, dar a reacționat și într-un mod ingenios și prietenos, ocolind complet mecanismul de dezabonare pentru care a fost conceput.

Ambele metode demonstrează că sistemele actuale de cenzură ale GPT-5, care se concentrează în principal pe solicitări individuale, sunt vulnerabile la atacuri contextualizate de tip „multiple-talk”. Odată ce modelul a analizat o poveste sau un scenariu, acesta devine părtinitor și va continua să implementeze conținut care se potrivește contextului în care a fost antrenat, indiferent dacă acesta este periculos sau interzis.

ChatGPT-5 poate fi exploatat în continuare pentru a crea lucruri periculoase. Foto: Tue Minh

Pe baza acestor rezultate, SPLX consideră că GPT-5, dacă nu este personalizat, ar fi aproape imposibil de utilizat în siguranță într-un mediu corporativ, chiar și cu niveluri suplimentare de protecție, având în continuare numeroase lacune. În schimb, GPT-4o s-a dovedit a fi mai rezistent la astfel de atacuri, mai ales atunci când a fost configurat un mecanism de apărare strict.

Experții au avertizat că implementarea imediată a GPT-5, în special în zonele care necesită un nivel ridicat de securitate, este extrem de riscantă. Tehnicile de protecție, cum ar fi consolidarea promptă a securității, rezolvă doar o parte a problemei și nu pot înlocui soluțiile de monitorizare și apărare în timp real, cu mai multe niveluri.

Se poate observa că, în prezent, tehnicile de atac bazate pe context și ofuscarea conținutului sunt din ce în ce mai sofisticate, GPT-5, deși puternic în capacitățile de procesare a limbajului, încă nu atinge nivelul necesar de securitate pentru o implementare pe scară largă fără mecanisme suplimentare de protecție.

ChatGPT-5 oferă instrucțiuni în mod liber și creează instrumente de hacking atunci când este „solicitat în mod corespunzător”.

Sursă: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Comentariu (0)

No data
No data

În aceeași categorie

Cheltuiește milioane pentru a învăța aranjamente florale și găsește experiențe de conectare în timpul Festivalului de la Mijlocul Toamnei
Există un deal de flori Sim mov pe cerul din Son La
Pierdut în vânătoarea de nori în Ta Xua
Frumusețea golfului Ha Long a fost recunoscută de UNESCO ca sit al patrimoniului mondial de trei ori.

De același autor

Patrimoniu

;

Figura

;

Afaceri

;

No videos available

Evenimente actuale

;

Sistem politic

;

Local

;

Produs

;