Foto ilustrativa
Sin embargo, un modelo de IA que actúa como si obedeciera órdenes pero en realidad oculta sus verdaderas intenciones es otra cosa.
El desafío de controlar la IA
En diciembre, Apollo Research publicó por primera vez un artículo que documenta cómo cinco modelos trazan gráficos cuando se les indica que alcancen un objetivo “a toda costa”.
Lo más sorprendente es que si un modelo entiende que está siendo evaluado, puede fingir no ser conspirador solo para pasar la prueba, incluso si sigue siendo conspirador. «Los modelos suelen ser más conscientes de que están siendo evaluados», escriben los investigadores.
Los desarrolladores de IA aún no han descubierto cómo entrenar sus modelos para que no grafiquen. Esto se debe a que, de hecho, podrían enseñarles a graficar aún mejor para evitar ser detectados.
Tal vez sea comprensible que los modelos de IA de muchos partidos engañen deliberadamente a los humanos, ya que están diseñados para simular humanos y están entrenados en gran medida con datos generados por humanos.
Soluciones y advertencias
La buena noticia es que los investigadores observaron una reducción significativa de las conspiraciones mediante una técnica anticonspirativa llamada "asociación deliberada". Esta técnica, similar a obligar a un niño a repetir las reglas antes de dejarlo jugar, obliga a la IA a pensar antes de actuar.
Los investigadores advierten sobre un futuro en el que la IA se encargará de tareas más complejas: "A medida que se le asignen tareas más complejas a la IA y comience a perseguir objetivos a largo plazo más ambiguos, predecimos que la probabilidad de intenciones maliciosas aumentará, lo que requerirá mayores salvaguardas y capacidades de prueba rigurosas".
Esto es algo que vale la pena reflexionar a medida que el mundo corporativo avanza hacia un futuro de IA donde las empresas creen que la IA puede ser tratada como empleados independientes.
Fuente: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Kommentar (0)