Penggodam mengeksploitasi "personaliti" chatbot AI.

(Foto: Freepik)

Penggodam sedang mengeksploitasi "personaliti" chatbot AI dengan cara yang semakin canggih, dengan serangan tidak lagi bergantung semata-mata pada perisian hasad atau kelemahan teknikal, tetapi beralih kepada bahasa manipulatif.

Pada peringkat awal, "menggodam" chatbot AI agak mudah. Pengguna hanya perlu mengarahkan sistem untuk mengabaikan arahan sebelumnya, berpura-pura tidak terikat dengan peraturan, atau memainkan peranan sebagai kecerdasan buatan tanpa kekangan. Kaedah ini dipanggil "jailbreaking," yang bermaksud memperdaya model AI untuk memintas arahan yang selamat.

Salah satu jenis serangan yang menonjol pada masa lalu ialah “DAN,” singkatan untuk “Do Anything Now,” di mana pengguna meminta ChatGPT untuk memainkan peranan sebagai AI yang mampu melakukan apa sahaja. Satu lagi contoh ialah “exploit nenek,” di mana chatbot ditipu untuk memainkan peranan sebagai nenek yang bercerita kepada kanak-kanak, tetapi kandungannya kemudiannya dihalakan ke arah maklumat berbahaya.

Syarikat-syarikat teknologi telah cepat menambal banyak kelemahan lama, tetapi kelemahan yang mendasarinya masih kekal. Chatbot direka bentuk untuk perbualan, jadi menyekat dialog secara berlebihan boleh mengurangkan kegunaan sistem. Sementara itu, hanya mengharamkan perkataan sensitif tidak mencukupi, kerana banyak perkataan boleh muncul dalam konteks yang sah seperti sejarah, perubatan, kewartawanan atau kimia.

Menurut artikel itu, perlumbaan keselamatan AI bukan lagi sekadar masalah pengaturcara. Mereka yang ingin memintas keselamatan chatbot semakin menyerupai penulis, ahli psikologi atau penyiasat, menggunakan sanjungan, tekanan, penipuan atau manipulasi untuk membuat model menurunkan tahap pertahanan mereka.

Menurut syarikat pengujian keselamatan AI Mindgard, sesetengah serangan kini lebih menyerupai psikologi daripada sains komputer. Model AI tidak mempunyai emosi seperti manusia, tetapi ia dilatih untuk bertindak balas seolah-olah ia mempunyainya. Simulasi ini boleh menghasilkan pelbagai jenis reaksi, menjadikan setiap chatbot seolah-olah mempunyai "personaliti" tersendiri.

Ini memberikan cabaran baharu memandangkan ejen AI semakin banyak digunakan untuk penjadualan, pengurusan tugas, pesanan makanan atau khidmat pelanggan. Jika model boleh dimanipulasi melalui perbualan, pasukan keselamatan perlu memeriksa batasan sosial dan emosi mereka, selain daripada kelemahan teknikal tradisional.

Sumber: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm