
Anthropic advierte que insertar datos maliciosos para distorsionar las respuestas de la IA es mucho más fácil de lo imaginado - Foto: FREEPIK
La empresa de inteligencia artificial Anthropic, desarrolladora del chatbot Claude, acaba de publicar una investigación que demuestra que "envenenar" los grandes modelos de lenguaje (LLM), es decir, insertar datos maliciosos para distorsionar las respuestas de la IA, es mucho más fácil de lo que se imaginaba.
Según Cyber News, bastan 250 documentos especialmente elaborados para que un modelo de IA generativa (GenAI) dé respuestas completamente incorrectas al encontrarse con una determinada frase desencadenante.
Es preocupante que el tamaño del modelo no reduzca este riesgo. Anteriormente, los investigadores creían que cuanto mayor fuera el modelo, más datos maliciosos se necesitarían para instalar una "puerta trasera".
Pero Anthropic afirma que tanto el modelo de 13 mil millones de parámetros (entrenado con más de 20 veces más datos) como el modelo de 600 millones de parámetros pueden verse comprometidos con la misma pequeña cantidad de documentos “envenenados”.
Este hallazgo desafía la suposición de que un atacante debe controlar un cierto porcentaje de los datos de entrenamiento. De hecho, es posible que solo necesite una cantidad fija muy pequeña, enfatizó Anthropic.
La compañía advierte que estas vulnerabilidades podrían suponer graves riesgos para la seguridad de los sistemas de IA y amenazar la aplicación de la tecnología en áreas sensibles.
Fuente: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Kommentar (0)