Antropisk: Bare en liten mengde data er nok til å «forgifte» gigantiske AI-modeller

Anthropic: Chỉ lượng tài liệu nhỏ cũng đủ 'đầu độc' mô hình AI khổng lồ - Ảnh 1. — Anthropic advarer om at det er mye enklere enn man tror å sette inn skadelige data for å forvri AI-responser – Foto: FREEPIK

Kunstig intelligens-selskapet Anthropic, utvikleren av chatboten Claude, har nettopp publisert forskning som viser at det å «forgifte» store språkmodeller (LLM-er), det vil si å sette inn skadelige data for å forvrenge AI-responser, er mye enklere enn man tror.

Ifølge Cyber News er bare 250 spesiallagde dokumenter nok til å få en generativ AI-modell (GenAI) til å gi helt feil svar når man støter på en bestemt triggerfrase.

Bekymringsfullt nok reduserer ikke modellens størrelse denne risikoen. Tidligere trodde forskere at jo større modellen var, desto mer skadelig data ville være nødvendig for å installere en «bakdør».

Men Anthropic hevder at både modellen med 13 milliarder parametere – trent på mer enn 20 ganger så mye data – og modellen med 600 millioner parametere kan kompromitteres med akkurat det samme lille antallet «forgiftede» dokumenter.

«Dette funnet utfordrer antagelsen om at en angriper må kontrollere en viss prosentandel av treningsdataene. Faktisk trenger de kanskje bare en veldig liten, fast mengde», understreket Anthropic.

Selskapet advarer om at disse sårbarhetene kan utgjøre en alvorlig risiko for sikkerheten til AI-systemer og true bruken av teknologien i sensitive områder.

Tilbake til emnet

KHANH QUYNH

Kilde: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm