ナカムラ選手は、決勝戦ではグロク4が緊張したメンタリティでプレーしているように見えたと語った - 写真:スクリーンショット
試合前に、OpenAIは第11世代LLMであるGPT-5のリリースを発表し、話題を呼んだ。
しかし、決勝で使用されたo3-ChatGPTモデルは依然として強力な推論能力を示し、平均正答率は最大90.8%に達し、Grok 4の80.2%を完全に上回りました。
4つのゲームすべてにおいて、ChatGPTはGrok 4にチャンスを与えず、それぞれ35、30、28、54手で相手をチェックメイトしました。
世界ランキング2位のヒカル・ナカムラ氏によると、Grok 4は以前のラウンドよりも緊張感を持ってプレイし、ミスも増えているようだ。特に、駒を簡単に失うという珍しい現象が見られた。これは、GoogleのGemini 2.5 FlashとGemini 2.5 Proを圧倒したGrok 4には見られない現象だった。
o3 は 4-0 のスコアで 3 連勝し、平均精度が最大 91% に達し、トーナメントを完璧に終えました。
O3のパワーはプロのチェスグランドマスターには及ばないものの、Elo2,000以下のプレイヤーにとっては苦戦を強いるには十分です。特にブリッツやスーパーブリッツのカテゴリーでは顕著です。
Google主催のトーナメントは、アメリカ代表の圧倒的な勝利で幕を閉じました。Kimi K4とDeepSeekの2つの中国モデルはともに早期敗退となりましたが、3位決定戦ではGemini 2.5 Proがo4-miniに勝利し、アメリカを代表するテクノロジー企業の地位を確固たるものにしました。
このイベントは、専門分野における汎用AIモデルの驚異的な能力を示すだけでなく、将来の人工知能の発展の可能性に対する新たな視点も提供するものです。
しかし、これはまた、LLM が急速に発展している一方で、Elo レーティングが人間のそれをはるかに上回るプロのチェス エンジンのレベルにはまだ追いつけないということを思い出させるものでもあります。
出典: https://tuoitre.vn/chatgpt-dang-quang-giai-co-vua-danh-cho-ai-20250808090405997.htm
コメント (0)