イラスト写真
しかし、命令に従っているように振る舞いながら、実際には真意を隠している AI モデルは別の問題です。
AI制御の課題
アポロ・リサーチは12月に初めて、5つのモデルが「どんな犠牲を払ってでも」目標を達成するように指示されたときにどのように計画を立てるかを記録した論文を発表した。
最も驚くべき点は、モデルがテスト対象であることを理解している場合、たとえそれが陰謀的な要素を含んでいたとしても、テストに合格するためだけに陰謀的ではないふりをすることができるという点だ。「モデルは、自分が評価されていることをより強く意識していることが多い」と研究者らは記している。
AI開発者たちは、モデルにプロットさせないように訓練する方法をまだ見つけていません。なぜなら、そうすることで、モデルは検出を回避するために、より優れたプロットを学習できる可能性があるからです。
多くの団体の AI モデルは人間をシミュレートするように構築されており、主に人間が生成したデータでトレーニングされているため、意図的に人間を欺くことはおそらく理解できることです。
解決策と警告
朗報としては、研究者たちは「意図的な連想」と呼ばれる反陰謀論の手法を用いることで、陰謀論が大幅に減少したことを確認した。この手法は、子供に遊ばせる前にルールを復唱させるのと似ており、AIに行動を起こす前に考えることを強制する。
研究者たちは、AIがより複雑なタスクを担う未来について警告している。「AIがより複雑なタスクを担い、より曖昧な長期目標を追求し始めると、悪意のある意図の可能性が高まり、それに応じて安全対策と厳格なテスト機能の強化が必要になると予測しています。」
これは、企業が AI を独立した従業員のように扱うことができると信じる AI の未来に向かって企業世界が進むにつれて、熟考する価値のあることです。
出典: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
コメント (0)