5月中旬のある週末、数学者たちの非公開会議が開催されました。 世界を代表する30人の数学者たちが、米国カリフォルニア州バークレーに秘密裏に集結し、「推論」能力を持つチャットボットとの対決に臨みました。このチャットボットは、数学者たち自身が考案した問題を解くという課題を与えられ、その問題解決能力をテストしました。
2日間連続で教授レベルの質問を浴びせ続けた後、数学者たちはこのチャットボットが歴史上最も難しい問題のいくつかを解けることを発見して驚愕した。
「この大規模言語モデルは数学の天才の域に近づいていると同僚たちが公言しているのを聞いたことがある」と、会議の議長兼審査員を務めたバージニア大学教授ケン・オノ氏はサイエンティフィック・アメリカン誌に語った。
前述のチャットボットは、複雑な推論のために設計された大規模言語モデル(LLM)であるo4-miniに基づいています。OpenAIのこの製品は、高度な推論ステップを実行するようにトレーニングされています。Googleの類似モデルであるGemini 2.5 Flashも同様の機能を備えています。
以前のChatGPT LLMと同様に、o4-miniはテキスト文字列内の次の単語を予測することを学習します。しかし、o4-miniはより軽量で柔軟性の高いバージョンであり、ディープデータでトレーニングされ、人間による綿密な調整を受けている点が異なります。これにより、以前のモデルでは到達できなかった数学的問題にも深く取り組むことができます。
o4-miniの能力を検証し評価するため、OpenAIはLLMモデルのテストを専門とする非営利団体Epoch AIに、これまで未公開だった300問の数学問題の作成を委託しました。従来のLLMは多くの複雑な問題を解くことができますが、全く新しい問題に挑戦させたところ、そのほとんどが2%未満しか正答しませんでした。これは、LLMが真の推論能力を欠いていることを示しています。
エポックAIは最新の評価プロジェクトにおいて、若手数学博士のエリオット・グレイザー氏をリーダーとして採用しました。 「FrontierMath」と呼ばれるこの新プロジェクトは、2024年9月に開始される予定です。
このプロジェクトでは、学部レベル、大学院レベル、そして詳細な研究レベルまで、4つの難易度レベルで新たな問題が収集されました。2025年4月、グレイザー氏はo4-miniが問題の約20%を解けることを発見しました。そのため、彼は直ちにo4-miniをレベル4に引き上げ、高度な数学者でさえ解くのに苦労するような問題を解くことを要求しました。
参加者は秘密保持契約に署名する必要があり、暗号化されたSignalアプリを通じてのみ通信する必要がありました。電子メールの使用はスキャンされ、その内容がLLMによって「学習」され、評価データが偽造される可能性があるためです。
o4-mini が解決できない問題ごとに、問題作成者に 7,500 ドルの賞金が贈られます。
当初のワーキンググループは、ゆっくりとではあったものの、着実に問題提起を進めていました。しかし、グレイザーは5月17日と18日の2日間、対面式の会合を開催することで、作業をスピードアップさせることにしました。30人の数学者が6人ずつのグループに分かれて参加し、互いに競い合いました。問題を解くのではなく、AIでは解けない問題を考案するのです。
5月17日の夕方までに、小野健氏はチャットボットに苛立ちを感じ始めた。チャットボットは予想をはるかに超える数学的能力を示し、チームにとって「捕獲」が困難だったからだ。「業界の専門家なら数論の未解決問題として認識するような、博士号取得にふさわしい問題を思いついたんです」と彼は当時を振り返る。
その結果、o4-miniに質問したところ、チャットボットがわずか10分で分析、推論し、正しい解決策を提示したので、彼は驚愕しました。具体的には、最初の2分で関連資料をすべて調査・把握し、その後、アプローチを学ぶために、より簡単な問題で試してみることを提案しました。
5分後、チャットボットは自信に満ちた、そしてやや傲慢とも言える口調で正しい答えを返した。「ずる賢そうな態度を見せ始めました」と小野氏は振り返る。「さらに、『引用する必要はありません。謎の数字はすでに計算済みです!』と付け加えたのです」
AIに敗れた5月18日の朝、小野は直ちにSignal経由でチームに警告メッセージを送った。「このようなモデルに対処する準備は全くできていませんでした」と彼は語った。「コンピューターモデルでこのような推論を見たことがありませんでした。まるで本物の科学者のように考えていたのです。それが恐ろしかったのです。」
数学者たちは最終的にo4-miniを困惑させる10の疑問を見つけることに成功したが、わずか1年でのAIの発展のスピードに驚きを隠せなかった。
小野氏は、o4-miniを使った研究の経験を、非常に才能のある同僚との共同研究に例えました。ロンドン数学科学研究所の数学者であり、AIを数学に応用する先駆者であるヤン・フイ・ハー氏は、「これは非常に優秀な大学院生ができることだ。いや、それ以上のことだ」とコメントしました。
AIは人間よりもはるかに速く処理できることも特筆に値します。人間が解くのに数週間から数ヶ月かかるのに対し、o4-miniはわずか数分で解けます。
o4-miniとの知恵比べをめぐる興奮は、少なからぬ懸念を伴っていた。小野氏と賀氏は共に、o4-miniの能力が過信につながる可能性があると警告した。「我々は帰納法による証明、背理法による証明、そして今や…圧倒的な力による証明を知っています」と賀氏は述べた。「十分な自信を持って何かを述べれば、他の人は威圧感を覚えるでしょう。o4-miniはこのタイプの証明をマスターしていると思います。o4-miniが述べることは何でも、非常に確実です。」
会議が終わると、数学者たちは数学の未来について考え始めました。彼らは「第五のレベル」、つまり世界最高の数学者でさえ解けない問題の可能性について議論しました。AIがそのレベルに到達すれば、数学者の役割は劇的に変化するでしょう。数学者は質問者となり、AIと対話し、その推論を導き、新たな数学的真理を発見するようになるかもしれません。まるで教授が大学院生と関わるのと同じようなやり方です。
「私は同僚たちに、汎用人工知能は永遠に現れず、単なるコンピューターだと決めつけるのは大きな間違いだと、しばらく前から言ってきました」と小野氏は述べた。「パニックに陥りたくはありませんが、ある意味では、これらの大規模言語モデルは既に世界トップクラスの大学院生のほとんどを上回る成績を上げ始めています。」
出典: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






コメント (0)