Было предпринято множество попыток использовать возможности искусственного интеллекта (ИИ) и больших языковых моделей (БЯМ) для прогнозирования результатов новых химических реакций. Однако успех был ограничен, главным образом потому, что эти модели не привязаны к фундаментальным физическим принципам, таким как закон сохранения массы.

Теперь группа ученых из Массачусетского технологического института нашла способ включить физические ограничения в модели прогнозирования реакций, что значительно повысило точность и надежность результатов.

Изображение урока 86.png
Система FlowER (Flow Matching for Electron Redistribution) позволяет детально отслеживать движение электронов, гарантируя отсутствие искусственного добавления или потери электронов. Фото: MIT News

Соавторами работы, опубликованной 20 августа в журнале Nature, стали Джунён Джунг (ныне доцент Университета Кукмин, Южная Корея), бывший инженер-программист Мун Хонг Фонг (ныне работающий в Университете Дьюка), аспирант факультета химической инженерии Николас Касетти, научный сотрудник-постдокторант Джордан Лайлс, студент-физик Не Дассанаяке и ведущий автор Коннор Коли, профессор повышения квалификации 1957 года на кафедре химической инженерии и кафедре электротехники и электротехники.

Почему прогнозирование реакции важно?

«Предсказать результат реакции — очень важная задача», — объясняет Юнг. Например, если вы хотите создать новый препарат, «вам нужно знать, как его синтезировать. Для этого необходимо знать, какие продукты, скорее всего, появятся» из набора исходных материалов.

Предыдущие попытки часто рассматривали только входные и выходные данные, игнорируя промежуточные этапы и физические ограничения, такие как невозможность естественного создания или потери массы.

Юнг отмечает, что, хотя такие LLM, как ChatGPT, добились определённых успехов в исследованиях, у них нет механизма, гарантирующего соответствие результатов законам физики. «Без сохранения „маркеров“ (представляющих атомы) LLM будут произвольно создавать или уничтожать атомы в ходе реакции», — говорит он. «Это больше похоже на алхимию, чем на науку».

Решение FlowerER: основано на старой платформе, применено к новым технологиям

Чтобы преодолеть эту проблему, группа использовала метод, разработанный химиком Иваром Уги в 1970-х годах, — матрицу «связь-электрон» — для представления электронов в реакции.

На этой основе они разработали программу FlowER (соответствие потоков для перераспределения электронов), которая позволяет детально отслеживать движение электронов, гарантируя, что никакие электроны не будут искусственно добавлены или потеряны.

Эта матрица использует ненулевое значение для представления связи или пары свободных электронов и нулевое — для противоположного. «Это позволяет нам сохранять как атом, так и электрон», — объясняет Фонг. Это ключ к включению закона сохранения массы в модель.

Ранние, но многообещающие доказательства

По словам Коули, нынешняя система — это всего лишь демонстрация — проверка концепции, которая показывает, что метод «соответствия потоков» хорошо подходит для прогнозирования химических реакций.

Несмотря на то, что база данных обучена на данных более миллиона химических реакций (полученных из Патентного ведомства США), в ней по-прежнему отсутствуют реакции с участием металлов и катализаторов.

«Мы рады, что система может надёжно предсказывать механизм реакции», — сказал Коули. «Она сохраняет массу, сохраняет электроны, но, безусловно, в ближайшие годы появятся способы расширить её и повысить надёжность».

Модель теперь доступна публично на GitHub. Коли надеется, что она станет полезным инструментом для оценки реактивности и построения карт реагирования.

Открытые источники данных и широкий потенциал применения

«Мы сделали все общедоступным — от модели до данных, включая предыдущий набор данных, созданный Юнгом, в котором подробно описаны известные механистические этапы реакции», — сказал Фонг.

По словам команды, FlowER может сравниться с существующими методами поиска стандартных механизмов или превзойти их, а также обобщить результаты на ранее неизвестные классы реакций. Потенциальные области применения включают фармацевтическую химию, поиск материалов, исследование пожаров, химию атмосферы и электрохимические системы.

По сравнению с другими системами, отмечает Коли: «Благодаря выбранной нами архитектуре мы достигаем качественного скачка в достоверности и целостности, сохраняя при этом или немного улучшая точность».

По словам Коули, уникальность модели заключается в том, что она не «изобретает» механизмы, а выводит их на основе экспериментальных данных из патентной литературы. «Мы извлекаем механизмы из экспериментальных данных — то, чего никогда не делали и не публиковали в таком масштабе».

Следующий шаг

Команда планирует расширить возможности модели в области металлов и катализа. «Мы лишь поверхностно коснулись этой темы», — признаёт Коули.

Он считает, что в долгосрочной перспективе система может помочь открыть новые сложные реакции, а также пролить свет на ранее неизвестные механизмы. «Долгосрочный потенциал огромен, но это только начало».

Исследование было поддержано консорциумом «Машинное обучение для фармацевтических открытий и синтеза» и Национальным научным фондом США (NSF).

(Источник: Массачусетский технологический институт)

Источник: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html