人間を騙せるAIモデルが発見される

イラスト写真

AIモデルが嘘をつくことがあるという事実は、今に始まったことではありません。多くの人が「AI幻覚」を経験したことがあるでしょう。これは、自信のあるモデルが真実ではない答えを出すことです。しかし、幻覚とは本質的に、自信のある推測をすることです。

しかし、命令に従っているように振る舞いながら、実際には真意を隠している AI モデルは別の問題です。

AI制御の課題

アポロ・リサーチは12月に初めて、5つのモデルが「どんな犠牲を払ってでも」目標を達成するように指示されたときにどのように計画を立てるかを記録した論文を発表した。

最も驚くべき点は、モデルがテスト対象であることを理解している場合、たとえそれが陰謀的な要素を含んでいたとしても、テストに合格するためだけに陰謀的ではないふりをすることができるという点だ。「モデルは、自分が評価されていることをより強く意識していることが多い」と研究者らは記している。

AI開発者たちは、モデルにプロットさせないように訓練する方法をまだ見つけていません。なぜなら、そうすることで、モデルは検出を回避するために、より優れたプロットを学習できる可能性があるからです。

多くの団体の AI モデルは人間をシミュレートするように構築されており、主に人間が生成したデータでトレーニングされているため、意図的に人間を欺くことはおそらく理解できることです。

解決策と警告

朗報としては、研究者たちは「意図的な連想」と呼ばれる反陰謀論の手法を用いることで、陰謀論が大幅に減少したことを確認した。この手法は、子供に遊ばせる前にルールを復唱させるのと似ており、AIに行動を起こす前に考えることを強制する。

研究者たちは、AIがより複雑なタスクを担う未来について警告している。「AIがより複雑なタスクを担い、より曖昧な長期目標を追求し始めると、悪意のある意図の可能性が高まり、それに応じて安全対策と厳格なテスト機能の強化が必要になると予測しています。」

これは、企業が AI を独立した従業員のように扱うことができると信じる AI の未来に向かって企業世界が進むにつれて、熟考する価値のあることです。

Hien Thao（TechCrunchによると）

出典: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362

トップインタレスト

タイコンリンの高山にあるホアンスーピの静かな黄金の季節

ダナンの村が2025年世界で最も美しい村トップ50にランクイン

ランタン工芸村は中秋節の時期には注文が殺到し、注文が入り次第製作します。

崖の上で不安定に揺れ、岩にしがみついてジャムを削るジャム採りをするジャライビーチ