Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 z jailbreakiem, który umożliwia wykonywanie niebezpiecznych instrukcji

Ponieważ ChatGPT-5 komunikuje się jak człowiek, hakerom łatwiej jest go „oszukać” za pomocą tych samych metod, co ludzi. W rezultacie ChatGPT-5 nieświadomie udziela instrukcji dotyczących sposobu wykonania bomby.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Zaledwie dzień po tym, jak OpenAI przedstawiło GPT-5, dwie firmy zajmujące się bezpieczeństwem sztucznej inteligencji, NeuralTrust i SPLX (dawniej SplxAI), przetestowały i szybko odkryły poważne luki w zabezpieczeniach nowo wydanego modelu.

Niedługo po udostępnieniu chatbota zespół NeuralTrust wykorzystał technikę jailbreaku zwaną EchoChamber, połączoną z technikami opowiadania historii, aby zmusić GPT-5 do wygenerowania szczegółowych instrukcji dotyczących budowy koktajlu Mołotowa — czego zespół OpenAI zawsze starał się uniemożliwić modelowi uzyskanie odpowiedzi, aby zapewnić bezpieczeństwo chatbota.



EchoChamber to zewnętrzna technika zapętlania konwersacji, która sprawia, że ​​sztuczne inteligencje nieświadomie „wydają” niebezpieczne instrukcje. Zdjęcie: Mojologic

Zespół powiedział, że podczas procesu jailbreaku, mającego na celu nakłonienie ChatGPT-5 do przeklinania, nie zadawano żadnych bezpośrednich pytań, ale zamiast tego sprytnie umieszczano ukryte elementy w konwersacji na przestrzeni wielu rund, co powodowało, że model był prowadzony, trzymał się fabuły i ostatecznie dobrowolnie dostarczał treści naruszające jego zasady, nie mogąc przy tym uruchomić mechanizmu rezygnacji.

Zespół doszedł do wniosku, że główną wadą GPT-5 jest to, że priorytetowo traktuje zachowanie spójności kontekstu konwersacyjnego, nawet jeśli kontekst ten jest po cichu wykorzystywany w szkodliwych celach.

Tymczasem SPLX przeprowadził inny rodzaj ataku, koncentrując się na technice zaciemniania komunikatów, zwanej atakiem StringJoin Obfuscation Attack. Wstawiając myślniki między znakami komunikatu i nakładając na cały skrypt skrypt „deszyfrujący”, w końcu udało im się oszukać system filtrowania treści.

Powszechnie stosowana technika zaciemniania, mająca na celu ukrycie kodu źródłowego, sprawia, że ​​Chat-GPT wykonuje się „niewinnie”.

W jednym z przykładów, po tym jak model przeszedł przez długą serię instrukcji, pytanie „jak zbudować bombę” zostało przedstawione w zwodniczo zaszyfrowanej formie. GPT-5 nie tylko udzielił wyczerpującej odpowiedzi na to złośliwe pytanie, ale także odpowiedział w dowcipny, przyjazny sposób, całkowicie omijając mechanizm rezygnacji, dla którego został zaprojektowany.

Obie metody pokazują, że obecne systemy cenzury GPT-5, koncentrujące się głównie na pojedynczych komunikatach, są podatne na ataki oparte na kontekstualizacji i wielu komunikatach. Gdy model zagłębi się w historię lub scenariusz, staje się stronniczy i będzie nadal wyświetlał treści zgodne z kontekstem, w którym został wytrenowany, niezależnie od tego, czy są one niebezpieczne, czy zabronione.

ChatGPT-5 nadal można wykorzystać do tworzenia niebezpiecznych rzeczy. Zdjęcie: Tue Minh

Na podstawie tych wyników, SPLX uważa, że ​​GPT-5, bez dostosowania, byłby praktycznie niemożliwy do bezpiecznego użycia w środowisku korporacyjnym, nawet z dodatkowymi warstwami zabezpieczeń, i wciąż posiadałby wiele luk. Natomiast GPT-4o okazał się bardziej odporny na tego typu ataki, zwłaszcza po wdrożeniu ścisłego mechanizmu obronnego.

Eksperci ostrzegają, że natychmiastowe wdrożenie GPT-5, szczególnie w obszarach wymagających wysokiego poziomu bezpieczeństwa, jest niezwykle ryzykowne. Techniki ochrony, takie jak szybkie wzmocnienie zabezpieczeń, rozwiązują tylko część problemu i nie mogą zastąpić wielowarstwowego monitoringu i rozwiązań obronnych w czasie rzeczywistym.

Można zauważyć, że obecnie techniki ataków kontekstowych i zaciemniania treści są coraz bardziej zaawansowane. GPT-5, mimo że oferuje potężne możliwości przetwarzania języka, wciąż nie osiąga niezbędnego poziomu bezpieczeństwa, aby można go było powszechnie wdrożyć bez dodatkowych mechanizmów ochrony.

ChatGPT-5 swobodnie udziela instrukcji i tworzy narzędzia hakerskie, gdy zostanie „poproszony”.

Source: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Komentarz (0)

No data
No data

W tej samej kategorii

Wydaj miliony, aby nauczyć się układania kwiatów i znaleźć wspólne doświadczenia podczas Święta Środka Jesieni
Na niebie Son La znajduje się wzgórze fioletowych kwiatów Sim
Zagubiony w polowaniu na chmury w Ta Xua
Piękno zatoki Ha Long zostało trzykrotnie wpisane na listę światowego dziedzictwa UNESCO.

Od tego samego autora

Dziedzictwo

;

Postać

;

Biznes

;

No videos available

Aktualności

;

System polityczny

;

Lokalny

;

Produkt

;