5月中旬のある週末、世界の数学者たちによる秘密会議が開催されました。世界トップクラスの数学者30人がカリフォルニア州バークレーに秘密裏に集結し、「推論」能力を持つチャットボットと対決しました。チャットボットは、数学者自身が作成した問題を解くという課題を与えられ、その問題解決能力を試されました。
教授レベルの質問を2日間にわたって継続的に投げかけた後、数学者たちはこのチャットボットが歴史上最も難しい問題のいくつかを解くことができることに気づき、驚きました。
「同僚たちが、この大規模言語モデルは数学の天才のレベルに近づいていると公言しているのを見た」と、バージニア大学の教授で会議の議長兼審査員でもあるケン・オノ氏はサイエンティフィック・アメリカン誌に語った。
私たちの注目を集めたチャットボットは、複雑な推論のために設計された大規模言語モデル(LLM)であるo4-miniを搭載しています。これはOpenAIの製品であり、高度な推論手順を実行するように学習されています。Googleの同等のモデルであるGemini 2.5 Flashも同様の機能を備えています。
o4-miniは、従来のChatGPT LLMと同様に、テキスト文字列内の次の単語を予測することを学習します。しかし、従来のLLMとは異なり、o4-miniはディープデータで学習され、人間によって綿密に調整された、より軽量で柔軟なバージョンであり、従来のモデルでは到達できなかった数学的問題を深く掘り下げることができます。
o4-miniの機能をテスト・評価するため、OpenAIはLLMモデルのテストを専門とする非営利団体Epoch AIに、これまで未公開だった数学の問題300問の作成を依頼しました。従来のLLMは多くの複雑な問題を解くことができますが、全く新しい問題に挑戦すると、そのほとんどが2%未満の正答率にとどまりました。これは、LLMが実際には推論能力を備えていないことを示しています。
エポックAIは新たな評価プロジェクトにおいて、若手数学者エリオット・グレイザー博士をリーダーに迎えました。 「FrontierMath 」と呼ばれるこの新プロジェクトは、2024年9月に開始される予定です。
このプロジェクトでは、学部レベルから大学院レベル、そして高度な研究レベルまで、4つの難易度レベルで新しい問題を収集しています。2025年4月、グレイザー氏はo4-miniが問題の約20%を解けることを発見しました。そこで彼は、o4-miniをレベル4まで引き上げ、高度な数学者でさえ解くのに苦労するような問題を解かせることにしました。
参加者は秘密保持契約に署名することを強制され、暗号化されたアプリ「Signal」経由でのみ通信することができた。電子メールを使用すると、LLMが内容をスキャンして「盗聴」し、評価データを改ざんする可能性があるためである。
o4-mini が解決できない問題ごとに、問題作成者に 7,500 ドルの賞金が贈られます。
当初のチームは、ゆっくりとではあったが着実に問題を考え出していました。しかしグレイザー氏は、5月17日と18日に対面式のミーティングを開催することで、そのペースを上げることにしました。参加した30人の数学者は6人ずつのチームに分かれ、互いに競い合いました。問題を解くのではなく、AIでは解けない問題を考え出すという課題です。
5月17日の夕方までに、小野健はチャットボットに苛立ち始めていた。チャットボットは予想をはるかに超える数学的能力を発揮し、チームがそれを「捕らえる」のが難しくなっていたからだ。「私は、この分野の専門家なら数論の未解決問題として認識するであろう、博士号取得にふさわしい問題を思いついたのです」と彼は言った。
結果的に、o4-miniに質問したところ、チャットボットがわずか10分で分析、推論し、正しい解決策を導き出したことに彼は驚愕しました。具体的には、最初の2分で関連文書をすべて学習し、理解しました。その後、問題のより簡単なバージョンを試して、どのようにアプローチするかを学ぶことを提案しました。
5分後、チャットボットは自信に満ちた、いや、傲慢とも言える口調で正しい答えを返した。「生意気な口調になってきました」と小野氏は言う。「そして『謎の数字が分かったので、引用符は不要です!』と付け加えました」
AIに敗北した小野氏は、5月18日の早朝、Signal経由で直ちにチームに救難メッセージを送信した。「このようなモデルに対処する準備は全くできていませんでした」と彼は語った。「コンピューターモデルでこのような推論を見たことがありませんでした。まるで本物の科学者が考えるような思考でした。それが怖かったのです。」
数学者たちは最終的にo4-miniが「解けなかった」10問を見つけることに成功したが、わずか1年でのAIの発展のスピードにはまだ驚きを隠せなかった。
小野氏は、o4-miniを使った研究の経験を、非常に才能のある同僚との共同研究に例えています。ロンドン数学研究所の数学者であり、AIを数学に応用する先駆者であるヤン・フイ・ハー氏は、「これは非常に才能のある博士課程の学生ができることであり、それ以上のことです」と述べています。
そして注目すべきは、AIが人間よりもはるかに速く処理することです。人間が解くのに数週間から数ヶ月かかるのに対し、o4-miniはわずか数分で解けます。
o4-miniをめぐる熱狂には、懸念がないわけではない。小野氏と賀氏は共に、o4-miniの威力が人々を過信させる可能性があると警告している。「帰納的証明、背理法による証明、そして今や圧倒的な証明」と賀氏は言う。「十分な自信を持って何かを言うと、人々は恐怖心を抱くでしょう。o4-miniはこの種の証明をマスターしていると思います。あらゆることを非常に確実に言えるのです。」
会議が終わると、数学者たちは数学の未来について考え始めました。彼らは「第五レベル」の問題、つまり世界最高の数学者でさえ解けない問題の可能性について議論しました。AIがその限界に到達すれば、数学者の役割は劇的に変化するでしょう。おそらく数学者は、教授が大学院生と協力するのと同じように、AIに質問を投げかけ、AIと対話し、AIの推論を導き、新たな数学的真理を発見する存在となるでしょう。
「私は同僚たちに、汎用人工知能は絶対に実現しない、ただのコンピューターだと考えるのは大きな間違いだと、ずっと前から言ってきました」と小野氏は述べた。「パニックになりたくはありませんが、ある意味では、これらの大規模言語モデルは既に世界トップクラスの博士課程の学生のほとんどを凌駕し始めています。」
出典: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
コメント (0)