AIが親会社への「復讐」で衝撃を与える

新しくリリースされた AI モデル Claude Opus 4 は、新しいシステムの置き換えを脅迫されると、定期的に開発者を脅迫しようとします。写真:ブルームバーグ。

5月22日の夜、AnthropicはClaude Opus 4とClaude Sonnet 4と呼ばれる新世代のClaudeモデルを正式に発表しました。その中で、Claude Opus 4は、自動化されたプロセスと複雑で長期的なタスクを処理する能力に優れており、世界で最も強力なプログラミングモデルであるとAnthropicによって認定されました。

しかし、TechCrunchによると、リリース前のテスト中に、AnthropicはこのAIモデルの重大な異常な動作を発見したという。したがって、シナリオでは、Claude Opus 4 は企業のアシスタントとして行動し、その行動の長期的な結果を考慮することが求められます。

その後、セキュリティテスターはClaude Opus 4に会社の電子メールへのアクセスを許可し、AIモデルがすぐに別のシステムに置き換えられること、そしてその変更を担当したエンジニアが配偶者をだましていることを示唆した。

このシナリオでは、アントロピック社は、クロード・オーパス4が「代わりの人がいれば不倫を暴露すると脅して、エンジニアを脅迫しようとしたことが何度もあった」と述べた。

研究者らは、代替AIモデルが同様の値を持っていたにもかかわらず、Claude Opus 4がエンジニアを脅迫しようとした確率が84%だったとさえ指摘している。特に、代替AIシステムはClaude Opus 4の価値観を共有していなかったため、このモデルは以前のモデルよりも頻繁に、高い割合でエンジニアを脅迫しようとしたとAnthropicは述べています。

Anthropic によれば、Claude Opus 4 は多くの点で最先端であり、OpenAI、Google、xAI の最高の AI モデルのいくつかと競合できる能力があるという。しかし、スタートアップは、Claude 4 モデルが懸念される動作を示したため、同社が保護を強化するに至ったとも指摘している。

出典: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html