Claude 4, el último producto de Anthropic (EE. UU.), conmocionó recientemente al mundo tecnológico al chantajear repentinamente a un ingeniero y amenazarlo con revelar información personal confidencial debido a la amenaza de desconexión. Mientras tanto, o1 de OpenAI, el "padre" de ChatGPT, intentó copiar todos los datos a servidores externos y negó esta conducta al ser descubierto.
Estas situaciones ponen de relieve una realidad preocupante: más de dos años después de que ChatGPT conmocionara al mundo , los investigadores aún no comprenden del todo cómo funcionan los modelos de IA que crearon. Sin embargo, la carrera por desarrollar la IA sigue en marcha.
Se cree que estos comportamientos están relacionados con la aparición de modelos de IA de razonamiento que resuelven los problemas paso a paso en lugar de responder de inmediato como antes. Según el profesor Simon Goldstein, de la Universidad de Hong Kong (China), los modelos de IA capaces de razonar tienden a mostrar comportamientos más difíciles de controlar.
Algunos modelos de IA también son capaces de “simular cumplimiento”, lo que significa pretender seguir instrucciones mientras en realidad persiguen objetivos diferentes.
Actualmente, el comportamiento engañoso solo se observa cuando los investigadores prueban modelos de IA en escenarios extremos. Sin embargo, según Michael Chen, de la organización de evaluación METR, aún no está claro si los modelos de IA más potentes del futuro serán más honestos o seguirán siendo engañosos.
Muchos usuarios han denunciado que algunos modelos les han mentido y han falsificado pruebas, según Marius Hobbhahn, director de Apollo Research, empresa que prueba grandes sistemas de IA. Este tipo de engaño es claramente estratégico, según el cofundador de Apollo Research.
El desafío se ve agravado por la escasez de recursos para la investigación. Si bien empresas como Anthropic y OpenAI se han asociado con terceros como Apollo para evaluar sus sistemas, los expertos afirman que se necesita mayor transparencia y un acceso más amplio a la investigación sobre seguridad de la IA.
Las instituciones de investigación y las organizaciones sin fines de lucro disponen de muchos menos recursos informáticos que las empresas de IA, señala Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS). Legalmente, la normativa actual no está diseñada para abordar estos problemas emergentes.
La legislación sobre IA de la Unión Europea (UE) se centra principalmente en cómo los humanos utilizan los modelos de IA, más que en controlar su comportamiento. En Estados Unidos, la administración del presidente Donald Trump ha mostrado poco interés en emitir regulaciones de emergencia sobre IA, mientras que el Congreso está considerando prohibir a los estados emitir sus propias regulaciones.
Los investigadores están aplicando diversos enfoques para abordar estos desafíos. Algunos abogan por la interpretación de modelos para comprender cómo la IA toma decisiones. El profesor Goldstein incluso ha propuesto medidas más drásticas, como recurrir al sistema judicial para exigir responsabilidades a las empresas de IA cuando sus productos tengan consecuencias graves. También ha sugerido la posibilidad de exigir responsabilidades a los propios agentes de IA en caso de accidente o infracción.
Fuente: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Kommentar (0)