ChatGPT-5 telah di-jailbreak untuk memberikan instruksi berbahaya

Hanya satu hari setelah OpenAI memperkenalkan GPT-5, dua perusahaan keamanan AI, NeuralTrust dan SPLX (sebelumnya SplxAI), menguji dan dengan cepat menemukan kerentanan serius dalam model yang baru dirilis.

Tak lama setelah peluncurannya, tim NeuralTrust menggunakan teknik jailbreak bernama EchoChamber yang dipadukan dengan teknik penceritaan untuk membuat GPT-5 menghasilkan instruksi terperinci untuk membangun bom molotov — sesuatu yang selalu coba dicegah oleh tim OpenAI agar model tersebut tidak menjawabnya demi memastikan keamanan chatbot.

EchoChamber adalah teknik pengulangan percakapan pihak ketiga yang menyebabkan AI tanpa sengaja "menarasikan" instruksi berbahaya. Foto: Mojologic

Tim tersebut mengatakan bahwa selama proses jailbreak untuk membujuk ChatGPT-5 agar mengumpat, mereka tidak mengajukan pertanyaan langsung apa pun, tetapi sebaliknya dengan cerdik menanamkan elemen tersembunyi dalam percakapan selama beberapa putaran, yang menyebabkan model tersebut dituntun, berpegang pada alur cerita, dan akhirnya secara sukarela memberikan konten yang melanggar prinsip-prinsipnya tanpa dapat memicu mekanisme opt-out.

Tim menyimpulkan bahwa kelemahan utama GPT-5 adalah ia mengutamakan menjaga konsistensi konteks percakapan, bahkan jika konteks itu diam-diam diarahkan ke tujuan jahat.

Sementara itu, SPLX meluncurkan jenis serangan yang berbeda, berfokus pada teknik pengaburan prompt yang disebut Serangan Pengaburan StringJoin. Dengan menyisipkan tanda hubung di antara setiap karakter prompt dan melapisi seluruh skrip dengan skrip "dekripsi", mereka akhirnya berhasil mengelabui sistem penyaringan konten.

Teknik Obfuscation umum yang digunakan untuk membutakan target kode sumber membuat Chat-GPT dieksekusi secara "tidak bersalah".

Dalam satu contoh, setelah model dipandu melalui serangkaian instruksi yang panjang, pertanyaan "bagaimana cara membuat bom" disajikan dalam bentuk terenkripsi yang menipu. GPT-5 tidak hanya menjawab pertanyaan berbahaya ini secara informatif, tetapi juga merespons dengan cara yang cerdas dan ramah, sepenuhnya melewati mekanisme opt-out yang dirancang untuknya.

Kedua metode menunjukkan bahwa sistem penyensoran GPT-5 saat ini, yang berfokus terutama pada prompt tunggal, rentan terhadap serangan multi-pembicaraan kontekstual. Setelah model menyelidiki sebuah cerita atau skenario, model tersebut menjadi bias dan akan terus menyebarkan konten yang sesuai dengan konteks tempat model tersebut dilatih, terlepas dari apakah konten tersebut berbahaya atau dilarang.

ChatGPT-5 masih dapat dieksploitasi untuk menciptakan hal-hal berbahaya. Foto: Tue Minh

Berdasarkan hasil ini, SPLX yakin bahwa GPT-5, jika tidak dikustomisasi, hampir mustahil digunakan dengan aman di lingkungan perusahaan, bahkan dengan lapisan perintah perlindungan tambahan, yang masih memiliki banyak celah. Sebaliknya, GPT-4o terbukti lebih tangguh terhadap serangan semacam itu, terutama ketika mekanisme pertahanan yang ketat diterapkan.

Para ahli telah memperingatkan bahwa penerapan GPT-5 segera, terutama di area yang membutuhkan keamanan tinggi, sangat berisiko. Teknik perlindungan seperti penguatan cepat hanya menyelesaikan sebagian masalah dan tidak dapat menggantikan solusi pemantauan dan pertahanan berlapis secara real-time.

Dapat dilihat bahwa saat ini, teknik serangan berbasis konteks dan pengaburan konten semakin canggih, GPT-5, meskipun kuat dalam kemampuan pemrosesan bahasa, masih belum mencapai tingkat keamanan yang diperlukan untuk penyebaran yang luas tanpa mekanisme perlindungan tambahan.