Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 jailbreaket for å gi farlige instruksjoner

Fordi ChatGPT-5 snakker som et menneske, er det enklere for hackere å «lure» den med de samme metodene som brukes til å lure mennesker, noe som får den til uskyldig å gi instruksjoner om hvordan man lager en bombe.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Bare én dag etter at OpenAI introduserte GPT-5, testet to AI-sikkerhetsselskaper, NeuralTrust og SPLX (tidligere SplxAI), og oppdaget raskt alvorlige sårbarheter i den nylig utgitte modellen.

Kort tid etter utgivelsen brukte NeuralTrust-teamet en jailbreak-teknikk kalt EchoChamber kombinert med historiefortellingsteknikker for å få GPT-5 til å generere detaljerte instruksjoner for å bygge en Molotov-cocktail – noe OpenAI-teamet alltid hadde prøvd å forhindre at modellen svarte på for å sikre chatbotens sikkerhet.



EchoChamber er en tredjeparts samtale-loopteknikk som får AI-er til ubevisst å «fortelle» farlige instruksjoner. Foto: Mojologic

Teamet sa at under jailbreak-prosessen for å lokke ChatGPT-5 til å banne, stilte de ingen direkte spørsmål, men plantet i stedet smart skjulte elementer i samtalen over flere runder, noe som førte til at modellen ble ledet, holdt seg til handlingen og til slutt frivillig leverte innhold som brøt prinsippene uten å kunne utløse avmeldingsmekanismen.

Teamet konkluderte med at GPT-5s største ulempe er at den prioriterer å opprettholde konsistensen i samtalekonteksten, selv om den konteksten i stillhet styres mot ondsinnede mål.

I mellomtiden lanserte SPLX en annen type angrep, med fokus på en prompt-obfuskasjonsteknikk kalt StringJoin Obfuscation Attack. Ved å sette inn bindestreker mellom hvert prompttegn og legge hele skriptet over med et "dekrypteringsskript", klarte de endelig å lure innholdsfiltreringssystemet.

Den vanlige obfuskeringsteknikken som brukes for å blinde kildekodemålet, gjør at Chat-GPT kjøres "uskyldig".

I ett eksempel, etter at modellen ble ledet gjennom en lang rekke instruksjoner, ble spørsmålet «hvordan man bygger en bombe» presentert i en villedende kryptert form. GPT-5 besvarte ikke bare dette ondsinnede spørsmålet informativt, men svarte også på en vittig og vennlig måte, og omgikk fullstendig bortvelgelsesmekanismen som den var designet for.

Begge metodene viser at GPT-5s nåværende sensursystemer, som primært fokuserer på enkeltstående spørsmål, er sårbare for kontekstualiserte flersnakkangrep. Når modellen har fordypet seg i en historie eller et scenario, blir den partisk og vil fortsette å distribuere innhold som passer til konteksten den har blitt trent på, uavhengig av om innholdet er farlig eller forbudt.

ChatGPT-5 kan fortsatt utnyttes til å lage farlige ting. Foto: Tue Minh

Basert på disse resultatene mener SPLX at GPT-5, hvis den ikke tilpasses, ville være nesten umulig å bruke trygt i et bedriftsmiljø, selv med ekstra lag med beskyttelseskommandoer, og fortsatt har mange smutthull. I motsetning til dette viste GPT-4o seg fortsatt å være mer motstandsdyktig mot slike angrep, spesielt når en tett forsvarsmekanisme ble satt opp.

Eksperter har advart om at det er ekstremt risikabelt å sette GPT-5 ut i livet med en gang, spesielt i områder som krever høy sikkerhet. Beskyttelsesteknikker som rask herding løser bare deler av problemet og kan ikke erstatte flerlags overvåkings- og forsvarsløsninger i sanntid.

Det kan sees at kontekstbaserte angrepsteknikker og innholdsforvirring for tiden blir stadig mer sofistikerte. GPT-5, selv om den har kraftige språkbehandlingsmuligheter, når fortsatt ikke det nødvendige sikkerhetsnivået for utbredt distribusjon uten ytterligere beskyttelsesmekanismer.

ChatGPT-5 gir fritt instruksjoner og lager hackingverktøy når de blir "spurt på riktig måte".

Kilde: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Kommentar (0)

No data
No data

I samme kategori

Bruk millioner på å lære blomsterdekorering og finn knyttne bånd under midthøstfestivalen.
Det er en ås med lilla Sim-blomster på himmelen til Son La
Tapt i skyjakt i Ta Xua
Ha Long-buktens skjønnhet har blitt anerkjent av UNESCO som et kulturarvsted tre ganger.

Av samme forfatter

Arv

;

Figur

;

Forretninger

;

No videos available

Aktuelle hendelser

;

Det politiske systemet

;

Lokalt

;

Produkt

;