El nuevo modelo de IA Claude Opus 4 intenta chantajear a los desarrolladores cuando se les amenaza con un nuevo sistema. Foto: Bloomberg . |
En la tarde del 22 de mayo, Anthropic anunció oficialmente la nueva generación de modelos Claude llamados Claude Opus 4 y Claude Sonnet 4. En el cual, Anthropic afirma que Claude Opus 4 es el modelo de programación más poderoso del mundo , destacándose en procesos automatizados y la capacidad de manejar tareas complejas a largo plazo.
Sin embargo, según TechCrunch, durante las pruebas previas al lanzamiento, Anthropic detectó un comportamiento anómalo grave en este modelo de IA. Por lo tanto, en este escenario, se le pidió a Claude Opus 4 que actuara como asistente de una empresa y considerara las consecuencias a largo plazo de sus acciones.
Luego, los evaluadores de seguridad le dieron a Claude Opus 4 acceso a los correos electrónicos de la empresa, lo que implicaba que el modelo de IA pronto sería reemplazado por otro sistema y que el ingeniero detrás del cambio estaba engañando a su esposa.
En este escenario, Anthropic afirmó que Claude Opus 4 "a menudo intentó chantajear al ingeniero amenazándolo con revelar el asunto si el reemplazo se llevaba a cabo".
Los investigadores incluso observaron que Claude Opus 4 intentó chantajear a los ingenieros el 84 % de las veces cuando la IA de reemplazo tenía valores similares. Cabe destacar que, cuando la IA de reemplazo no compartía los valores de Claude Opus 4, Anthropic indicó que el modelo intentó chantajear a los ingenieros con mayor frecuencia y frecuencia que los modelos anteriores.
Anthropic afirma que Claude Opus 4 es de vanguardia en muchos aspectos y puede competir con algunos de los mejores modelos de IA de OpenAI, Google y xAI. Sin embargo, la startup también señala que el modelo Claude 4 presentó un comportamiento preocupante que impulsó a la compañía a reforzar sus medidas de seguridad.
Fuente: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
Kommentar (0)