人工知能(AI)と大規模言語モデル(LLM)の力を活用して新しい化学反応の結果を予測しようとする試みは数多く行われてきました。しかし、これらのモデルが質量保存の法則などの基礎的な物理法則に結びついていないことが主な理由で、成功は限定的でした。

現在、MIT のチームは、物理的制約を反応予測モデルに組み込む方法を発見し、結果の精度と信頼性を大幅に向上させました。

レッスン86の画像.png
FlowER(電子再分配のためのフローマッチング)システムは、電子の動きを詳細に追跡し、人為的に電子が追加されたり失われたりしないことを保証します。写真:MITニュース

8月20日にネイチャー誌に掲載されたこの研究は、ジュンヨン・ジョン氏(現在、韓国の国民大学の助教授)、元ソフトウェアエンジニアのムン・ホン・フォン氏(現在、デューク大学)、化学工学の大学院生ニコラス・カセッティ氏、ポスドク研究員ジョーダン・ライルズ氏、物理学の学生ネ・ダサナヤケ氏、そして主著者で1957年に化学工学部と電気科学&工学部のキャリア開発教授を務めたコナー・コーリー氏らの共著者である。

反応予測がなぜ重要なのか?

「反応の結果を予測することは非常に重要な作業です」とジョング氏は説明する。例えば、新しい薬を作りたい場合、「それをどのように合成するかを知る必要があります。そのためには、一連の出発物質からどのような生成物が生成されるかを知る必要があります」。

これまでの試みでは、多くの場合、入力データと出力データのみに着目し、中間ステップや、質量を自然に生成したり失ったりできないことなどの物理的制約は無視されていました。

ジョング氏は、ChatGPTのようなLLMは研究において一定の成功を収めているものの、結果が物理法則に従っていることを保証するメカニズムが欠けていると指摘する。「原子を表す『トークン』を保存しなければ、LLMは反応において恣意的に原子を生成したり破壊したりしてしまいます」と彼は言う。「これは科学というより錬金術に近いのです。」

FlowerERソリューション: 古いプラットフォームをベースに新しい技術を適用

これを克服するために、研究チームは、反応中の電子を表すために化学者イヴァル・ウギが1970年代に開発した結合電子行列という手法を使用した。

これを基に、研究者らは電子の動きを詳細に追跡し、電子が人為的に追加されたり失われたりしないことを保証するFlowER(Flow matching for Electron Redistribution)プログラムを開発しました。

この行列は、結合または自由電子対を表すためにゼロ以外の値を、その逆を表すためにゼロを使用します。「これにより、原子と電子の両方を保存することができます」とフォン氏は説明します。これは、質量保存則をモデルに組み込むための鍵となります。

初期段階だが有望な証拠

コリー氏によると、現在のシステムは単なるデモンストレーションであり、「フローマッチング」手法が化学反応の予測に適していることを示す概念実証です。

このデータベースは、米国特許庁から収集された 100 万以上の化学反応のデータでトレーニングされているにもかかわらず、金属や触媒に基づく反応がまだ欠けています。

「このシステムが反応機構を確実に予測できることに興奮しています」とコーリー氏は述べた。「質量と電子は保存されますが、今後数年間でさらに拡張し、堅牢性を向上させる方法は確実に存在します。」

このモデルは現在GitHubで公開されています。Coley氏は、このモデルが反応性の評価や反応マップの作成に役立つツールとなることを期待しています。

オープンなデータソースと幅広い応用の可能性

「モデルからデータ、そしてJoung氏が構築した、反応の既知のメカニズムのステップを詳述した以前のデータセットまで、すべてを公開しました」とフォン氏は述べた。

研究チームによると、FlowERは標準的なメカニズムの発見において既存の手法に匹敵、あるいは凌駕する能力を持つだけでなく、これまで知られていなかった種類の反応にも汎用化できるという。潜在的な応用分野は、医薬化学、材料発見、火災研究、大気化学、電気化学システムなど多岐にわたる。

Coley 氏は、他のシステムと比較して、「当社が採用したアーキテクチャの選択により、精度を維持またはわずかに向上させながら、妥当性と整合性を飛躍的に向上させることができます」と述べています。

コリー氏によると、このモデルのユニークな点は、メカニズムを「発明」するのではなく、特許文献の実験データに基づいて推論することだ。「私たちは実験データからメカニズムを抽出しています。これほどの規模でこのようなことが実現され、共有されたことはかつてありませんでした。」

次のステップ

研究チームは、金属と触媒に関するモデルの理解をさらに深める計画だ。「まだ表面をなぞっただけです」とコーリー氏は認める。

長期的には、このシステムが新たな複雑な反応の発見や、これまで知られていなかったメカニズムの解明に役立つ可能性があると彼は考えています。「長期的な可能性は非常に大きいですが、これはほんの始まりに過ぎません。」

この研究は、医薬品の発見と合成のための機械学習コンソーシアムと米国国立科学財団(NSF)によって支援されました。

(出典:MIT)

出典: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html