
Anthropic avertizează că inserarea de date rău intenționate pentru a denatura răspunsurile inteligenței artificiale este mult mai ușoară decât se crede - Foto: FREEPIK
Compania de inteligență artificială Anthropic, dezvoltatorul chatbot-ului Claude, tocmai a publicat o cercetare care arată că „otrăvirea” modelelor lingvistice mari (LLM), adică inserarea de date malițioase pentru a distorsiona răspunsurile inteligenței artificiale, este mult mai ușoară decât se crede.
Conform Cyber News, doar 250 de documente special create sunt suficiente pentru ca un model de inteligență artificială generativă (GenAI) să dea răspunsuri complet greșite atunci când întâlnește o anumită frază declanșatoare.
Îngrijorător este faptul că dimensiunea modelului nu reduce acest risc. Anterior, cercetătorii credeau că, cu cât modelul este mai mare, cu atât sunt necesare mai multe date rău intenționate pentru a instala un „backdoor”.
Însă Anthropic susține că atât modelul cu 13 miliarde de parametri – antrenat pe baza a peste 20 de ori mai multe date – cât și modelul cu 600 de milioane de parametri pot fi compromise cu același număr mic de documente „otrăvite”.
„Această constatare pune sub semnul întrebării presupunerea că un atacator trebuie să controleze un anumit procent din datele de antrenament. De fapt, este posibil să aibă nevoie doar de o cantitate fixă foarte mică”, a subliniat Anthropic.
Compania avertizează că aceste vulnerabilități ar putea reprezenta riscuri grave pentru securitatea sistemelor de inteligență artificială și ar putea amenința aplicarea tehnologiei în zone sensibile.
Sursă: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Comentariu (0)