
Anthropic varuje, že vkládání škodlivých dat za účelem zkreslení reakcí umělé inteligence je mnohem snazší, než se předpokládalo - Foto: FREEPIK
Společnost Anthropic, která se zabývá umělou inteligencí a je vývojářem chatbota Claude, právě zveřejnila výzkum, který ukazuje, že „otravování“ velkých jazykových modelů (LLM), tedy vkládání škodlivých dat za účelem zkreslení odpovědí umělé inteligence, je mnohem snazší, než se předpokládalo.
Podle serveru Cyber News stačí pouhých 250 speciálně vytvořených dokumentů k tomu, aby generativní model umělé inteligence (GenAI) při zadání určité spouštěcí fráze poskytl zcela nesprávné odpovědi.
Znepokojivé je, že velikost modelu toto riziko nesnižuje. Dříve se vědci domnívali, že čím větší je model, tím více škodlivých dat bude potřeba k instalaci „zadních vrátek“.
Anthropic ale tvrdí, že jak model s 13 miliardami parametrů – trénovaný na více než 20krát větším množství dat – tak i model s 600 miliony parametrů lze kompromitovat stejně malým počtem „otrávených“ dokumentů.
„Toto zjištění zpochybňuje předpoklad, že útočník musí kontrolovat určité procento trénovacích dat. Ve skutečnosti může potřebovat jen velmi malé fixní množství,“ zdůraznil Anthropic.
Společnost varuje, že tyto zranitelnosti by mohly představovat vážná rizika pro bezpečnost systémů umělé inteligence a ohrozit aplikaci technologie v citlivých oblastech.
Zdroj: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Komentář (0)