
Anthropic alerta que inserir dados maliciosos para distorcer as respostas da IA é muito mais fácil do que se imagina - Foto: FREEPIK
A empresa de inteligência artificial Anthropic, desenvolvedora do chatbot Claude, acaba de publicar uma pesquisa mostrando que "envenenar" grandes modelos de linguagem (LLMs), ou seja, inserir dados maliciosos para distorcer as respostas da IA, é muito mais fácil do que se imaginava.
De acordo com o Cyber News, apenas 250 documentos especialmente elaborados são suficientes para fazer com que um modelo de IA generativa (GenAI) dê respostas completamente incorretas ao encontrar uma determinada frase de gatilho.
Preocupantemente, o tamanho do modelo não reduz esse risco. Anteriormente, os pesquisadores acreditavam que quanto maior o modelo, mais dados maliciosos seriam necessários para instalar uma "porta dos fundos".
Mas a Anthropic afirma que tanto o modelo de 13 bilhões de parâmetros — treinado em mais de 20 vezes mais dados — quanto o modelo de 600 milhões de parâmetros podem ser comprometidos com o mesmo pequeno número de documentos “envenenados”.
“Essa descoberta desafia a suposição de que um invasor precisa controlar uma certa porcentagem dos dados de treinamento. Na verdade, eles podem precisar apenas de uma quantidade fixa muito pequena”, enfatizou a Anthropic.
A empresa alerta que essas vulnerabilidades podem representar sérios riscos à segurança dos sistemas de IA e ameaçar a aplicação da tecnologia em áreas sensíveis.
Fonte: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Comentário (0)