Podejmowano wiele prób wykorzystania potencjału sztucznej inteligencji (AI) i dużych modeli językowych (LLM) do przewidywania wyników nowych reakcji chemicznych. Jednak sukcesy były ograniczone, głównie dlatego, że modele te nie są powiązane z fundamentalnymi zasadami fizyki, takimi jak prawo zachowania masy.

Zespół naukowców z MIT znalazł sposób na uwzględnienie ograniczeń fizycznych w modelach przewidywania reakcji, co znacznie zwiększa dokładność i niezawodność wyników.

Obraz lekcji 86.png
System FlowER (Flow matching for Electron Redistribution) umożliwia szczegółowe śledzenie ruchu elektronów, gwarantując, że żadne elektrony nie zostaną sztucznie dodane ani utracone. Zdjęcie: MIT News

Współautorami pracy, opublikowanej 20 sierpnia w czasopiśmie Nature, byli Joonyoung Joung (obecnie adiunkt na Uniwersytecie Kookmin w Korei Południowej), były inżynier oprogramowania Mun Hong Fong (obecnie pracujący na Uniwersytecie Duke'a), student inżynierii chemicznej Nicholas Casetti, badacz podoktorancki Jordan Liles, student fizyki Ne Dassanayake oraz główny autor Connor Coley, profesor rozwoju kariery w 1957 r. na Wydziale Inżynierii Chemicznej i Wydziale Nauk Elektrycznych i Inżynierii.

Dlaczego przewidywanie reakcji jest ważne?

„Przewidywanie wyniku reakcji to bardzo ważne zadanie” – wyjaśnia Joung. Na przykład, jeśli chcesz stworzyć nowy lek, „musisz wiedzieć, jak go zsyntetyzować. Wymaga to wiedzy, które produkty prawdopodobnie powstaną” z zestawu materiałów wyjściowych.

Wcześniejsze próby często opierały się wyłącznie na danych wejściowych i wyjściowych, ignorując etapy pośrednie i ograniczenia fizyczne, takie jak niemożność naturalnego tworzenia lub utraty masy.

Joung zwraca uwagę, że chociaż modele LLM, takie jak ChatGPT, odniosły pewne sukcesy w badaniach, brakuje im mechanizmu gwarantującego zgodność wyników z prawami fizyki. „Bez zachowania „tokenów” (reprezentujących atomy), modele LLM będą arbitralnie tworzyć lub niszczyć atomy w reakcji” – mówi. „To bardziej przypomina alchemię niż naukę”.

Rozwiązanie FlowerER: Oparte na starej platformie, zastosowane w nowej technologii

Aby przezwyciężyć ten problem, zespół wykorzystał metodę z lat 70. XX wieku opracowaną przez chemika Ivara Ugiego, czyli macierz wiązania-elektronów, do reprezentacji elektronów w reakcji.

Na tej podstawie opracowali program FlowER (Flow matching for Electron Redistribution), który umożliwia szczegółowe śledzenie ruchu elektronów, gwarantując, że żadne elektrony nie zostaną sztucznie dodane ani utracone.

Ta macierz używa wartości innej niż zero do reprezentowania wiązania lub pary swobodnych elektronów, a zero do reprezentowania wiązania lub pary swobodnych elektronów. „To pozwala nam zachować zarówno atom, jak i elektron” – wyjaśnia Fong. Jest to klucz do uwzględnienia zasady zachowania masy w modelu.

Wczesne, ale obiecujące dowody

Według Coleya obecny system jest jedynie demonstracją — dowodem koncepcji pokazującym, że metoda „dopasowania przepływu” dobrze nadaje się do przewidywania reakcji chemicznych.

Mimo że baza danych została opracowana na podstawie danych pochodzących z ponad miliona reakcji chemicznych (zebranych z Urzędu Patentowego Stanów Zjednoczonych), nadal brakuje w niej reakcji opartych na metalach i katalizatorach.

„Jesteśmy podekscytowani, że system potrafi wiarygodnie przewidywać mechanizm reakcji” – powiedział Coley. „Zachowuje masę, zachowuje elektrony, ale z pewnością istnieją sposoby na rozbudowę i poprawę jego niezawodności w nadchodzących latach”.

Model jest już publicznie dostępny na GitHubie. Coley ma nadzieję, że będzie on przydatnym narzędziem do oceny reaktywności i tworzenia map reakcji.

Otwarte źródła danych i szeroki potencjał zastosowań

„Upubliczniliśmy wszystko – od modelu, przez dane, po wcześniejszy zbiór danych stworzony przez Jounga, który szczegółowo opisywał znane mechanistyczne kroki reakcji” – powiedział Fong.

Według zespołu, FlowER może dorównać lub przewyższyć istniejące metody w znajdowaniu standardowych mechanizmów, a jednocześnie uogólnić je na wcześniej nieobserwowane klasy reakcji. Potencjalne zastosowania obejmują chemię farmaceutyczną, odkrywanie materiałów, badania pożarów, chemię atmosfery, a także układy elektrochemiczne.

Coley zauważa: „Dzięki wybranemu przez nas wyborowi architektonicznemu osiągamy ogromny skok w zakresie trafności i integralności, zachowując jednocześnie dokładność lub nieznacznie ją zwiększając”.

Coley twierdzi, że unikatowe jest to, że model nie „wymyśla” mechanizmów, lecz wnioskuje o nich na podstawie danych eksperymentalnych z literatury patentowej. „Wyodrębniamy mechanizmy z danych eksperymentalnych – czegoś, czego nigdy wcześniej nie robiono i nie udostępniano na taką skalę”.

Następny krok

Zespół planuje poszerzyć wiedzę modelu na temat metali i cykli katalitycznych. „Dopiero dotarliśmy do sedna” – przyznaje Coley.

Wierzy, że w dłuższej perspektywie system może pomóc w odkrywaniu nowych, złożonych reakcji, a także rzucić światło na nieznane dotąd mechanizmy. „Potencjał długoterminowy jest ogromny, ale to dopiero początek”.

Badania zostały wsparte przez konsorcjum Machine Learning for Pharmaceutical Discovery and Synthesis oraz amerykańską Narodową Fundację Nauki (NSF).

(Źródło: MIT)

Source: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html