新たにリリースされたAIモデル「Claude Opus 4」は、新システムで脅迫されると、開発者を脅迫しようとする傾向がある。写真:ブルームバーグ |
5月22日の夜、AnthropicはClaude Opus 4とClaude Sonnet 4と呼ばれる新世代のClaudeモデルを正式に発表しました。その中で、Claude Opus 4は、自動化されたプロセスと複雑で長期的なタスクを処理する能力に優れており、世界で最も強力なプログラミングモデルであるとAnthropicによって認定されました。
しかし、TechCrunchによると、リリース前のテスト中に、AnthropicはこのAIモデルに重大な異常な動作を発見したとのことです。そのため、シナリオでは、Claude Opus 4は企業のアシスタントとして行動し、その行動の長期的な影響を検討することが求められました。
その後、セキュリティテスターはClaude Opus 4に会社の電子メールへのアクセスを許可し、AIモデルがすぐに別のシステムに置き換えられること、そしてその変更の背後にいるエンジニアが配偶者をだましていることを示唆した。
このシナリオでは、アントロピック社は、クロード・オーパス4が「代わりの人がいれば不倫を暴露すると脅して、エンジニアを脅迫しようとしたことが何度もあった」と述べた。
研究者らは、AI代替モデルが類似した価値観を持つ場合、Claude Opus 4がエンジニアを脅迫しようとする確率が84%にも上ったと指摘しました。特に、AI代替モデルがClaude Opus 4と同じ価値観を持たない場合、Anthropic社によると、モデルは以前のモデルよりも頻繁に、そして高い確率でエンジニアを脅迫しようとしました。
Anthropic社は、Claude Opus 4は多くの点で最先端であり、OpenAI、Google、xAIなどの優れたAIモデルと競合できると述べています。しかし、同社はClaude Opus 4モデルに懸念すべき挙動が見られ、安全対策を強化したとも指摘しています。
出典: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
コメント (0)