
Anthropic memperingatkan bahwa memasukkan data berbahaya untuk mendistorsi respons AI jauh lebih mudah daripada yang dibayangkan - Foto: FREEPIK
Perusahaan kecerdasan buatan Anthropic, pengembang chatbot Claude, baru saja menerbitkan penelitian yang menunjukkan bahwa "meracuni" model bahasa besar (LLM), yaitu memasukkan data berbahaya untuk mendistorsi respons AI, jauh lebih mudah daripada yang dibayangkan.
Menurut Cyber News, hanya 250 dokumen yang dibuat khusus cukup untuk membuat model AI generatif (GenAI) memberikan jawaban yang sepenuhnya salah saat menemui frasa pemicu tertentu.
Yang mengkhawatirkan, ukuran model tidak mengurangi risiko ini. Sebelumnya, para peneliti memperkirakan bahwa semakin besar modelnya, semakin banyak data berbahaya yang dibutuhkan untuk memasang "pintu belakang".
Namun Anthropic mengklaim bahwa baik model parameter 13 miliar – yang dilatih dengan data lebih dari 20 kali lipat – maupun model parameter 600 juta dapat dikompromikan hanya dengan sejumlah kecil dokumen “beracun” yang sama.
"Temuan ini menantang asumsi bahwa penyerang harus mengendalikan persentase tertentu dari data pelatihan. Faktanya, mereka mungkin hanya membutuhkan jumlah tetap yang sangat kecil," tegas Anthropic.
Perusahaan memperingatkan bahwa kerentanan ini dapat menimbulkan risiko serius terhadap keamanan sistem AI dan mengancam penerapan teknologi di area sensitif.
Sumber: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Komentar (0)