
Anthropic varnar för att det är mycket enklare än man kan föreställa sig att infoga skadlig data för att snedvrida AI-svar - Foto: FREEPIK
Artificiell intelligens-företaget Anthropic, utvecklaren av chatboten Claude, har just publicerat forskning som visar att det är mycket enklare än man kan föreställa sig att "förgifta" stora språkmodeller (LLM), det vill säga att infoga skadlig data för att förvränga AI-svar.
Enligt Cyber News räcker det med bara 250 specialutformade dokument för att en generativ AI-modell (GenAI) ska ge helt felaktiga svar när man stöter på en viss triggerfras.
Oroväckande nog minskar inte modellens storlek denna risk. Tidigare trodde forskare att ju större modellen var, desto mer skadlig data skulle behövas för att installera en "bakdörr".
Men Anthropic hävdar att både modellen med 13 miljarder parametrar – tränad på mer än 20 gånger så mycket data – och modellen med 600 miljoner parametrar kan komprometteras med samma lilla antal "förgiftade" dokument.
"Detta resultat utmanar antagandet att en angripare måste kontrollera en viss procentandel av träningsdata. Faktum är att de kanske bara behöver en mycket liten fast mängd", betonade Anthropic.
Företaget varnar för att dessa sårbarheter kan utgöra allvarliga risker för AI-systemens säkerhet och hota tillämpningen av tekniken i känsliga områden.
Källa: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Kommentar (0)