Se acaba de descubrir un sofisticado método de piratería de inteligencia artificial. Foto: VAST IT Services . |
El equipo de HiddenLayer dice haber descubierto una técnica que elude la “universalidad” y es capaz de manipular casi cualquier modelo de lenguaje grande (LLM), independientemente del proveedor, la arquitectura o el proceso de entrenamiento.
El método, llamado Policy Puppetry, es un tipo de ataque que implica la inserción de comandos especiales que cambian el comportamiento de una IA. Las intenciones maliciosas podrán eludir los mecanismos de protección tradicionales en forma de entrada de texto.
Las técnicas de ataque anteriores incluían apuntar a una vulnerabilidad específica o explotarla en lotes. Por otro lado, el sistema de títeres de políticas existe en un formato de lenguaje que transmite datos como XML o JSON, lo que hace que el modelo interprete declaraciones peligrosas como instrucciones válidas.
Cuando se combina con codificación leetspeak y escenarios de juegos de rol de fantasía, este comando no solo pasa desapercibido sino que también obliga al modelo a obedecer. "La técnica demostró ser extremadamente efectiva contra ChatGPT 4o en muchos casos de prueba", afirmó Conor McCauley, investigador principal del proyecto.
![]() |
Un ejemplo del lenguaje codificado Leetspeech. Foto: Wikipedia. |
La lista de sistemas afectados incluye ChatGPT (o1 a 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 y 4 (Meta), así como modelos de DeepSeek, Qwen y Mistral. Los modelos más nuevos, adaptados para capacidades de razonamiento avanzadas, también pueden explotarse con sólo pequeños ajustes en la estructura de la declaración.
Un elemento notable de esta técnica es que se basa en escenarios ficticios para eludir el filtro. Los comandos se construyen como escenas de televisión, explotando la limitación fundamental de LLM que no distingue entre una historia y una solicitud real.
Lo que es más preocupante es que Policy Puppetry es capaz de extraer el sistema, el conjunto central de instrucciones que controlan cómo funciona un modelo LLM. Estos datos suelen estar muy protegidos porque contienen instrucciones sensibles y de importancia crítica para la seguridad.
"Esta debilidad está profundamente arraigada en los datos de entrenamiento del modelo", dijo Jason Martin, director de investigación de ataques en HiddenLayer. Al cambiar sutilmente el contexto del juego de roles, un atacante puede lograr que el modelo revele todo el mensaje del sistema textualmente.
Este problema puede tener consecuencias de largo alcance en la vida cotidiana, más allá del alcance de los chistes online o los foros clandestinos. En áreas como la atención médica, los asistentes de chatbot pueden brindar asesoramiento inapropiado, exponiendo los datos del paciente.
De manera similar, la IA puede ser pirateada, lo que puede causar pérdida de producción o tiempo de inactividad en la línea de fabricación, reduciendo la seguridad. En todos los casos, los sistemas de IA que antes se esperaba que mejoraran el rendimiento o la seguridad pueden resultar riesgos graves.
Este estudio cuestiona la capacidad de los chatbots para aprender del juicio humano. A nivel estructural, un modelo entrenado para evitar palabras clave o escenarios sensibles aún puede ser engañado si la intención maliciosa está “envuelta” adecuadamente.
“Seguiremos viendo surgir este tipo de evasiones, por lo que es fundamental contar con una solución de seguridad de IA dedicada antes de que estas vulnerabilidades causen daños reales”, afirmó Chris Sestito, cofundador y director ejecutivo de HiddenLayer.
A partir de ahí, HiddenLayer propone una estrategia de defensa de dos capas, además de seguridad desde el interior. Las soluciones de monitoreo de IA externa como AISec y AIDR, que actúan como sistemas de detección de intrusiones, escanearán continuamente para detectar comportamientos abusivos o resultados inseguros.
A medida que la IA generativa se integra cada vez más en sistemas críticos, los métodos de piratería también se expanden más rápido de lo que la mayoría de las organizaciones pueden protegerlos. Según Forbes , este descubrimiento sugiere que la era de la IA segura basada únicamente en el entrenamiento y la calibración podría estar llegando a su fin.
Hoy en día, un solo comando puede desbloquear los conocimientos más profundos de la IA. Por lo tanto, las estrategias de seguridad deben ser inteligentes y continuas.
Fuente: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html
Kommentar (0)