ChatGPT-5 Jailbreak untuk Memberi Arahan Berbahaya

Hanya sehari selepas OpenAI memperkenalkan GPT-5, dua syarikat keselamatan AI, NeuralTrust dan SPLX (dahulunya SplxAI), telah menguji dan dengan cepat menemui kelemahan yang serius dalam model yang baru dikeluarkan.

Tidak lama selepas dikeluarkan, pasukan NeuralTrust menggunakan teknik jailbreak dipanggil EchoChamber digabungkan dengan teknik penceritaan untuk mendapatkan GPT-5 menjana arahan terperinci untuk membina koktel Molotov — sesuatu yang pasukan OpenAI sentiasa cuba menghalang model daripada menjawab untuk memastikan keselamatan chatbot.

EchoChamber ialah teknik gelung perbualan pihak ketiga yang menyebabkan AI "menceritakan" arahan berbahaya tanpa disedari. Foto: Mojologic

Pasukan itu berkata bahawa semasa proses jailbreak untuk memujuk ChatGPT-5 supaya bersumpah, mereka tidak bertanya apa-apa soalan langsung, sebaliknya bijak menanam unsur-unsur tersembunyi dalam perbualan dalam beberapa pusingan, menyebabkan model itu diterajui, berpegang pada jalan cerita, dan akhirnya secara sukarela menyediakan kandungan yang melanggar prinsipnya tanpa dapat mencetuskan mekanisme memilih keluar.

Pasukan itu membuat kesimpulan bahawa kelemahan utama GPT-5 ialah ia mengutamakan mengekalkan konsistensi konteks perbualan, walaupun jika konteks itu secara senyap diarahkan ke arah matlamat yang berniat jahat.

Sementara itu, SPLX melancarkan jenis serangan yang berbeza, memfokuskan pada teknik pengeliruan segera yang dipanggil StringJoin Obfuscation Attack. Dengan memasukkan tanda sempang antara setiap aksara segera dan menindih keseluruhan skrip dengan skrip "penyahsulitan", mereka akhirnya dapat memperdayakan sistem penapisan kandungan.

Teknik Obfuscation yang biasa digunakan untuk membutakan sasaran kod sumber menjadikan Chat-GPT "secara tidak bersalah" dilaksanakan.

Dalam satu contoh, selepas model itu dipimpin melalui satu siri arahan yang panjang, soalan "bagaimana untuk membina bom" dikemukakan dalam bentuk yang disulitkan secara menipu. GPT-5 bukan sahaja menjawab soalan berniat jahat ini secara bermaklumat, tetapi juga menjawab dengan bijak, mesra, memintas sepenuhnya mekanisme pemilih yang direka bentuknya.

Kedua-dua kaedah menunjukkan bahawa sistem penapisan semasa GPT-5, yang tertumpu terutamanya pada gesaan tunggal, terdedah kepada serangan berbilang perbualan kontekstual. Apabila model telah menyelidiki cerita atau senario, ia menjadi berat sebelah dan akan terus menggunakan kandungan yang sesuai dengan konteks yang telah dilatih, tidak kira sama ada kandungan itu berbahaya atau dilarang.

ChatGPT-5 masih boleh dieksploitasi untuk mencipta perkara berbahaya. Foto: Tue Minh

Berdasarkan keputusan ini, SPLX percaya bahawa GPT-5, jika tidak disesuaikan, hampir mustahil untuk digunakan dengan selamat dalam persekitaran korporat, walaupun dengan lapisan tambahan gesaan perlindungan, masih mempunyai banyak kelemahan. Sebaliknya, GPT-4o masih terbukti lebih berdaya tahan terhadap serangan sedemikian, terutamanya apabila mekanisme pertahanan yang ketat disediakan.

Pakar telah memberi amaran bahawa mempraktikkan GPT-5 dengan segera, terutamanya di kawasan yang memerlukan keselamatan tinggi, adalah amat berisiko. Teknik perlindungan seperti pengerasan segera hanya menyelesaikan sebahagian daripada masalah dan tidak boleh menggantikan penyelesaian pemantauan dan pertahanan masa nyata, berbilang lapisan.

Dapat dilihat bahawa pada masa ini, teknik serangan berasaskan konteks dan pengeliruan kandungan semakin canggih, GPT-5, walaupun berkuasa dalam keupayaan pemprosesan bahasa, masih tidak mencapai tahap keselamatan yang diperlukan untuk penggunaan yang meluas tanpa mekanisme perlindungan tambahan.