TechCrunchによると、ポケモンは人工知能(AI)にとって最も厳しいテストだと多くの人が考えているようです。しかし、AIの挑戦はそこで止まらず、最近、カリフォルニア大学サンディエゴ校(米国)の研究者が、ゲーム「スーパーマリオブラザーズ」で新たな挑戦を開始しました。その結果、すべてのAIがうまく「ゴールラインに到達」できるわけではないことがわかりました。
マリオゲームは大規模なAIモデルの性能テストに使用されている
写真: TECHCRUNCH スクリーンショット
スーパーマリオはAIモデルにとって大きな課題となる
Hao AI Labsは、AIをマリオの世界に持ち込み、今日の主要な言語モデルの能力をテストしました。その結果、AnthropicのClaude 3.7が最も優れたパフォーマンスを示し、次いでClaude 3.5が続きました。一方、GoogleのGemini 1.5 ProとOpenAIのGPT-4oは、単独でゲームをプレイするのがより困難でした。
注目すべきは、これが1985年のオリジナル版『スーパーマリオブラザーズ』ではないということです。このゲームはエミュレーター上で動作し、GamingAgentフレームワークと統合することで、AIが小さなマリオを操作できるようにしています。GamingAgentはAIに基本的な指示とゲームのスクリーンショットを提供します。AIはそれを受けて、キャラクターを操作するためのPythonコードを生成します。
Hao AIによると、このゲームはモデルに複雑な動きを計画し、プレイ戦略を構築する方法を「学習」させるという。興味深いことに、OpenAIのo1のような「推論型」モデルはほとんどのテストで優れているものの、「非推論型」モデルよりも苦戦している。
その理由は、推論モデルは意思決定に時間がかかるのに対し、スーパーマリオブラザーズは素早い反射神経を必要とするためです。1秒の遅れが失敗につながる可能性があります。
ゲームを用いてAIを評価する手法は古くから存在していますが、多くの専門家はこの手法の正確性に懐疑的です。彼らは、ゲームは単純すぎる上に、AIの訓練にはデータが多すぎるため、現実世界におけるAIの真の能力を反映していないと主張しています。
OpenAIの研究科学者であるアンドレイ・カルパシー氏は、これを「評価の危機」と呼んでいます。彼は、現時点ではAIの能力を評価するための正確な指標が存在しないことを認めています。
ゲームを通じて AI を評価することの正確さについては議論が続いているものの、マリオの世界で AI が「戦う」のを見るのは依然として興味深い体験であり、AI の能力をより深く理解するのに役立ちます。
コメント (0)