Appleの大規模推論モデルに関する新たな研究が注目を集めている。写真: Macrumors |
人工知能は登場からわずか3年で、勉強や仕事など、日常生活の多くの場面に登場し始めています。多くの人が、人工知能が人間に取って代わる日もそう遠くないのではないかと懸念しています。
しかし、新しいAIモデルは私たちが考えているほど賢くない。大手テクノロジー企業の調査結果が、その考えを強固なものにしている。
誰もが「無視できない」ことを知っている
新たに公開された「幻想的思考」という研究の中で、Apple の研究チームは、Claude、DeepSeek-R1、o3-mini などの推論モデルは、その名前が示すように実際には「脳主導」ではないと主張しています。
「推論」という言葉は「模倣」に置き換えるべきだ。研究グループは、これらのモデルはパターンを記憶し、繰り返すことには効率的だが、質問が変化したり、複雑さが増したりすると、ほとんど崩壊してしまうと主張している。
もっと簡単に言えば、チャットボットはパターンを認識してマッチングできる場合にはうまく機能しますが、問題が複雑になりすぎると対処できなくなります。「最先端の大規模推論モデル(LRM)は、複雑さが一定の閾値を超えると、精度が完全に低下してしまう」と研究は指摘しています。
これは、リソースが増えれば複雑性が改善されるという開発者の期待に反する。「AI推論の労力は複雑性が高まるにつれて増加するが、それはある程度までであり、それを処理するのに十分なトークンバジェット(計算能力)が残っていても、その後は減少する」と研究は付け加えている。
この研究では、研究者たちは、質問に答えるために一般的に用いられる質問モデルを根本から覆しました。通常の数学のテストの代わりに、ハノイの塔、チェッカージャンプ、川渡り、ブロックワールドといった巧妙に設計されたパズルを導入しました。
各パズルゲームはシンプルで明確なルールを持ち、ディスク、ブロック、エージェントの追加など、難易度に応じて難易度が異なります。推論モデルは中難易度では優れたパフォーマンスを発揮しますが、易難易度では通常バージョンに劣ります。特に、難難易度ではAIが諦めたかのように、すべてが完全に崩壊します。
ハノイの塔問題では、問題解決アルゴリズムに「フィード」したにもかかわらず、推論モデルの性能はあまり向上しませんでした。一部のモデルはゲームを100レベルまでクリアできたものの、「川を渡る」問題では5ステップしか不完全な状態でクリアできませんでした。
![]() |
ハノイタワーでは、プレイヤーは円を大きさ順に動かして位置を変える必要があります。写真: Wikipedia。 |
これは、LRMモデルの推論性能と安定性が低いことを示しています。AIが人間に匹敵する能力については多くの議論がありますが、Appleによる今回の新たな研究は、その逆を証明しています。
アップルの発見は新しいものではない
アメリカの心理学者で作家でもあるゲイリー・マーカス氏は、アップルの研究結果は印象的だが、真に新しいものではなく、単に先行研究を補強するだけだと述べた。ニューヨーク大学心理学・神経科学の名誉教授である同氏は、1998年の研究を例に挙げた。
この論文の中で彼は、大規模言語モデルの前身であるニューラル ネットワークは、トレーニングに使用されたデータの分布内では十分に一般化できるが、分布外のデータに直面すると崩壊することが多いと主張しています。
ラオ教授はまた、アリゾナ州立大学のコンピューター科学者、スッバラオ・カンバムパティ氏が近年行った議論を引用している。ラオ教授は、「思考の連鎖」や「推論モデル」は、多くの人が考えるほど本質的に信頼性が低いと考えている。
「人々は大規模言語モデルの推論の痕跡を過度に擬人化しがちで、その名前に値しないものを『思考』と呼ぶことがある」と同教授は語る。同教授は、LLMによって生成された思考シーケンスが必ずしも実際の思考を正確に反映しているわけではないことに関する一連の論文を執筆している。
Appleの新たな調査によると、最新世代の推論モデルでさえ、学習データ以外では信頼性が低いことが示されています。マーカス氏は、LLMモデルとLRMモデルはどちらも用途があり、場合によっては有用であると述べています。しかし、ユーザーはこれらのモデルの結果をすべて信頼すべきではありません。
出典: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html
コメント (0)