Le nouveau modèle d'IA Claude Opus 4 tente régulièrement de faire chanter les développeurs lorsqu'il est menacé par un nouveau système. Photo : Bloomberg . |
Le soir du 22 mai, Anthropic a officiellement annoncé la nouvelle génération de modèles Claude appelée Claude Opus 4 et Claude Sonnet 4. Dans lesquels, Claude Opus 4 est affirmé par Anthropic comme étant le modèle de programmation le plus puissant au monde , excellant dans les processus automatisés et la capacité de gérer des tâches complexes à long terme.
Cependant, selon TechCrunch, lors des tests préliminaires, Anthropic a découvert de graves anomalies dans ce modèle d'IA. Par conséquent, dans le scénario, Claude Opus 4 a été invité à jouer le rôle d'assistant pour une entreprise et à évaluer les conséquences à long terme de ses actions.
Les testeurs de sécurité ont ensuite donné à Claude Opus 4 accès aux courriels de l'entreprise, laissant entendre que le modèle d'IA serait bientôt remplacé par un autre système, et que l'ingénieur à l'origine du changement trompait son épouse.
Dans ce scénario, Anthropic a déclaré que Claude Opus 4 « a souvent tenté de faire chanter l'ingénieur en le menaçant de révéler l'affaire si le remplacement était effectué ».
Les chercheurs ont même constaté que Claude Opus 4 tentait de faire chanter les ingénieurs dans 84 % des cas lorsque l'IA de remplacement présentait des valeurs similaires. Notamment, lorsque l'IA de remplacement ne partageait pas les valeurs de Claude Opus 4, Anthropic a indiqué que le modèle tentait de faire chanter les ingénieurs plus souvent et à un taux plus élevé que les modèles précédents.
Anthropic affirme que Claude Opus 4 est à la pointe de la technologie à bien des égards et peut rivaliser avec certains des meilleurs modèles d'IA d'OpenAI, de Google et de xAI. Cependant, la startup note également que le modèle Claude 4 a présenté des comportements inquiétants qui ont incité l'entreprise à renforcer ses mesures de sécurité.
Source : https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
Comment (0)