Los hackers explotan la "personalidad" de los chatbots de IA.

(Foto: Freepik)

Los piratas informáticos están explotando la "personalidad" de los chatbots de IA de formas cada vez más sofisticadas, y los ataques ya no se basan únicamente en malware o vulnerabilidades técnicas, sino que están recurriendo al lenguaje manipulador.

En sus inicios, "hackear" los chatbots de IA era bastante sencillo. Los usuarios solo necesitaban indicarle al sistema que ignorara las instrucciones previas, que fingiera no estar sujeto a las reglas o que se hiciera pasar por una inteligencia artificial sin restricciones. Estos métodos se denominan "jailbreaking", que consiste en engañar al modelo de IA para que eluda las instrucciones de seguridad.

Uno de los tipos de ataque más comunes en el pasado era "DAN", acrónimo de "Do Anything Now" (Haz lo que quieras ahora), en el que los usuarios pedían a ChatGPT que simulara ser una IA capaz de hacer cualquier cosa. Otro ejemplo es el "ataque de la abuela", en el que se engaña a un chatbot para que se haga pasar por una abuela que cuenta cuentos a los niños, pero el contenido se redirige hacia información peligrosa.

Las empresas tecnológicas han corregido rápidamente muchas de las vulnerabilidades antiguas, pero las debilidades subyacentes persisten. Los chatbots están diseñados para conversar, por lo que restringir excesivamente el diálogo puede disminuir la utilidad del sistema. Además, prohibir simplemente palabras sensibles no es suficiente, ya que muchas de ellas pueden aparecer en contextos legítimos como la historia, la medicina, el periodismo o la química.

Según el artículo, la carrera por la seguridad de la IA ya no es solo un problema de programadores. Quienes buscan eludir la seguridad de los chatbots se parecen cada vez más a escritores, psicólogos o interrogadores, utilizando halagos, presión, engaños o manipulación para que los modelos bajen la guardia.

Según Mindgard, empresa especializada en pruebas de seguridad de IA, algunos ataques ahora se asemejan más a la psicología que a la informática . Los modelos de IA no tienen emociones como los humanos, pero se les entrena para responder como si las tuvieran. Esta simulación puede generar diferentes tipos de reacciones, haciendo que cada chatbot parezca tener su propia "personalidad".

Esto plantea un nuevo desafío, ya que los agentes de IA se utilizan cada vez más para la planificación, la gestión de tareas, los pedidos de comida o la atención al cliente. Si los modelos pueden ser manipulados mediante la conversación, las fuerzas de seguridad tendrán que examinar tanto sus limitaciones sociales como emocionales, además de las vulnerabilidades técnicas tradicionales.

Fuente: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm