1966年の創設以来「コンピューター界のノーベル賞」と呼ばれているチューリング賞には100万ドルの賞金が付いており、2人の科学者がそれを分け合うことになる。

「強化学習」の旅は、1977年に当時マサチューセッツ大学アマースト校の研究員だったアンドリュー・バートが、人間の脳のニューロンは「快楽主義者」として機能し、常に快楽を最大化し、苦痛を最小化しようとするという新しい理論を提唱したときに始まりました。

1978年、リチャード・サットンはアンドリュー・バートと共に、人間の知能を説明するこのアイデアを発展させ、人工知能(AI)に応用しました。その結果、「強化学習」が誕生しました。これは、AIシステムがデジタル形式の「喜び」と「痛み」から学習することを可能にする手法です。

741892ab198395c98fd211f6f918a95144a8b819.jpeg
マサチューセッツ大学のアンドリュー・バート氏(左)とリチャード・サットン氏(右)の研究は、今日のAIシステムにおいて重要な役割を果たしている。写真:NYT

彼らの研究は、2016年に世界トップクラスの囲碁棋士イ・セドルを破ったGoogleのAlphaGoシステムから、驚くほど人間に近い会話能力を持つOpenAIのChatGPTチャットボットまで、過去10年間の大きな進歩の基礎を築いてきました。

「彼らは強化学習における紛れもない先駆者です」とワシントン大学名誉教授でアレン人工知能研究所の創設者でもあるオーレン・エツィオーニ氏は言う。エツィオーニ氏の1998年の著書『強化学習入門』は今でもこの分野の標準テキストとなっている。

心理学者は長年にわたり、人間や動物が経験からどのように学習するかを研究してきました。1940年代、英国のコンピューター科学者の先駆者であるアラン・チューリングは、機械も同様の方法で学習できると提唱しました。

しかし、政府に勤務するコンピュータ科学者、A・ハリー・クロプフが提唱した理論を基に、この仕組みを数学的に研究し始めたのは、バート博士とサットン博士でした。バート博士はマサチューセッツ大学アマースト校にこのアイデア専用の研究室を設立し、サットン博士はカナダのアルバータ大学に同様の研究室を設立しました。

「強化学習」はゲームだけに限ったものではありません。ChatGPTは「人間からのフィードバックによる強化学習」(RLHF)技術を用いて、数百人のユーザーによる学習を通じて応答能力の向上を図ってきました。

最近では、OpenAIやDeepSeekなどの企業も、チャットボットが自ら問題を解決し、人間の推論をシミュレートできる自己学習システムを開発しており、OpenAIのo1やDeepSeekのR1のような「推論」システムの登場につながっています。

将来的には、両科学者は「強化学習」が、人間や動物と同様にロボットが現実世界の経験から学習するのに役立つと考えています。「強化学習を通じて生物を制御することは非常に自然なことです」とバルト氏は述べています。

アンドリュー・バート氏とリチャード・サットン氏は、その革命的な貢献により、チューリング賞に値するだけでなく、人工知能の新時代への扉を開きました。

中国は、NVIDIA の最先端 AI チップの購入に「回り道」をとっている。中国の顧客は、NVIDIA の最新チップを注文するために米国の輸出規制を回避しようとしている。