
Anthropic memberi amaran bahawa memasukkan data berniat jahat untuk memesongkan respons AI adalah lebih mudah daripada yang dibayangkan - Foto: FREEPIK
Syarikat kecerdasan buatan Anthropic, pembangun chatbot Claude, baru sahaja menerbitkan penyelidikan yang menunjukkan bahawa "meracuni" model bahasa besar (LLM), iaitu, memasukkan data berniat jahat untuk memesongkan respons AI, adalah lebih mudah daripada yang dibayangkan.
Menurut Cyber News, hanya 250 dokumen yang direka khas sudah memadai untuk menjadikan model AI generatif (GenAI) memberikan jawapan yang salah sepenuhnya apabila menemui frasa pencetus tertentu.
Yang membimbangkan, saiz model tidak mengurangkan risiko ini. Sebelum ini, penyelidik berpendapat bahawa lebih besar model, lebih banyak data berniat jahat diperlukan untuk memasang "pintu belakang."
Tetapi Anthropic mendakwa bahawa kedua-dua model 13 bilion parameter - dilatih pada lebih daripada 20 kali lebih banyak data - dan model 600 juta parameter boleh dikompromi dengan hanya sejumlah kecil dokumen "terracuni" yang sama.
"Penemuan ini mencabar andaian bahawa penyerang mesti mengawal peratusan tertentu data latihan. Malah, mereka mungkin hanya memerlukan jumlah tetap yang sangat kecil," tegas Anthropic.
Syarikat itu memberi amaran bahawa kelemahan ini boleh menimbulkan risiko serius kepada keselamatan sistem AI dan mengancam penggunaan teknologi di kawasan sensitif.
Sumber: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Komen (0)