
Anthropic ostrzega, że wprowadzanie złośliwych danych w celu zniekształcenia reakcji sztucznej inteligencji jest znacznie łatwiejsze, niż się wydaje - Zdjęcie: FREEPIK
Firma Anthropic, zajmująca się sztuczną inteligencją i twórca chatbota Claude, właśnie opublikowała badania, które pokazują, że „zatruwanie” dużych modeli językowych (LLM), czyli wstawianie złośliwych danych w celu zniekształcenia odpowiedzi sztucznej inteligencji, jest znacznie łatwiejsze niż sądzono.
Według Cyber News wystarczy zaledwie 250 specjalnie przygotowanych dokumentów, aby model generatywnej sztucznej inteligencji (GenAI) po napotkaniu określonej frazy wyzwalającej udzielił całkowicie niepoprawnych odpowiedzi.
Co niepokojące, rozmiar modelu nie zmniejsza tego ryzyka. Wcześniej badacze sądzili, że im większy model, tym więcej złośliwych danych będzie potrzebnych do zainstalowania „tylnych drzwi”.
Jednak Anthropic twierdzi, że zarówno model składający się z 13 miliardów parametrów – trenowany na ponad 20 razy większej ilości danych – jak i model składający się z 600 milionów parametrów mogą zostać naruszone za pomocą tej samej, niewielkiej liczby „zatrutych” dokumentów.
„To odkrycie podważa założenie, że atakujący musi kontrolować pewien procent danych treningowych. W rzeczywistości może potrzebować jedynie bardzo niewielkiej, ustalonej ilości” – podkreślił Anthropic.
Firma ostrzega, że te luki mogą stanowić poważne zagrożenie dla bezpieczeństwa systemów sztucznej inteligencji i zagrozić stosowaniu tej technologii w wrażliwych obszarach.
Source: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Komentarz (0)