Bylo učiněno mnoho pokusů o využití síly umělé inteligence (AI) a modelů velkých jazyků programování (LLM) k předpovídání výsledků nových chemických reakcí. Úspěch byl však omezený, a to především proto, že tyto modely nejsou vázány na základní fyzikální principy, jako je zákon zachování hmotnosti.

Tým z MIT nyní našel způsob, jak začlenit fyzikální omezení do modelů predikce reakcí, čímž se výrazně zlepšila přesnost a spolehlivost výsledků.

Obrázek lekce 86.png
Systém FlowER (Flow matching for Electron Redistribution) umožňuje detailní sledování pohybu elektronů a zajišťuje, že žádné elektrony nejsou uměle přidávány ani ztráceny. Foto: MIT News

Práce, publikovaná 20. srpna v časopise Nature, byla spoluautory Joonyoung Joung (nyní odborný asistent na Kookmin University v Jižní Koreji), bývalý softwarový inženýr Mun Hong Fong (nyní na Duke University), postgraduální student chemického inženýrství Nicholas Casetti, postdoktorandský výzkumník Jordan Liles, student fyziky Ne Dassanayake a hlavní autor Connor Coley, profesor profesního rozvoje na katedře chemického inženýrství a katedře elektrotechniky a inženýrství z roku 1957.

Proč je předpovídání reakcí důležité?

„Předpovídání výsledku reakce je velmi důležitý úkol,“ vysvětluje Joung. Například pokud chcete vyrobit nový lék, „musíte vědět, jak ho syntetizovat. To vyžaduje vědět, které produkty se pravděpodobně objeví“ z dané sady výchozích materiálů.

Předchozí pokusy se často zaměřovaly pouze na vstupní a výstupní data a ignorovaly mezikroky a fyzikální omezení, jako je neschopnost přirozeně vytvářet nebo ztrácet hmotu.

Joung poukazuje na to, že ačkoliv LLM jako ChatGPT dosáhly ve výzkumu určitého úspěchu, chybí jim mechanismus, který by zajistil, aby jejich výsledky dodržovaly fyzikální zákony. „Bez zachování ‚tokenů‘ (které představují atomy) budou LLM v reakci libovolně vytvářet nebo ničit atomy,“ říká. „To je spíš jako alchymie než věda.“

Řešení FlowerER: Založeno na staré platformě, aplikováno na novou technologii

Aby se tento problém vyřešil, tým použil metodu vyvinutou chemikem Ivarem Ugim v 70. letech 20. století – matici vazeb a elektronů – k reprezentaci elektronů v reakci.

Na základě toho vyvinuli program FlowER (Flow matching for Electron Redistribution), který umožňuje detailní sledování pohybu elektronů a zajišťuje, že žádné elektrony nejsou uměle přidávány ani ztráceny.

Tato matice používá nenulovou hodnotu pro reprezentaci vazby nebo páru volných elektronů a nulu pro opačnou hodnotu. „To nám umožňuje zachovat jak atom, tak elektron,“ vysvětluje Fong. To je klíčové pro začlenění zákona zachování hmotnosti do modelu.

První, ale slibné důkazy

Podle Coleyho je současný systém pouze demonstrací – ověřením konceptu, které ukazuje, že metoda „přirovnávání proudění“ je vhodná pro predikci chemických reakcí.

Přestože je databáze trénována s daty z více než milionu chemických reakcí (shromažďovaných z amerického patentového úřadu), stále chybí reakce na bázi kovů a katalytických reakcí.

„Jsme nadšeni, že systém dokáže spolehlivě předpovědět mechanismus reakce,“ řekl Coley. „Zachovává hmotu, zachovává elektrony, ale v nadcházejících letech jistě existují způsoby, jak rozšířit a zlepšit jeho robustnost.“

Model je nyní veřejně dostupný na GitHubu. Coley doufá, že bude užitečným nástrojem pro posouzení reaktivity a vytváření map odpovědí.

Otevřené datové zdroje a široký aplikační potenciál

„Zveřejnili jsme všechno – od modelu, přes data, až po předchozí datový soubor vytvořený Joungem, který podrobně popisoval známé mechanistické kroky reakce,“ řekl Fong.

Podle týmu se FlowER může shodovat s existujícími metodami nebo je dokonce překonat při hledání standardních mechanismů a zároveň zobecnit na dosud neznámé třídy reakcí. Potenciální aplikace sahají od farmaceutické chemie, objevování materiálů, výzkumu ohně, atmosférické chemie až po elektrochemické systémy.

Coley ve srovnání s jinými systémy poznamenává: „S architektonickou volbou, kterou používáme, dosahujeme kvantového skoku v platnosti a integritě, přičemž si zachováváme nebo mírně zlepšujeme přesnost.“

Coley říká, že jedinečné je, že model mechanismy „nevymýšlí“, ale spíše je odvozuje na základě experimentálních dat z patentové literatury. „Z experimentálních dat extrahujeme mechanismy – něco, co se v tomto měřítku nikdy nedělalo a ani nesdílelo.“

Další krok

Tým plánuje rozšířit znalosti modelu o kovech a katalytických cyklech. „Zatím jsme jen poškrábali povrch,“ přiznává Coley.

Z dlouhodobého hlediska by systém mohl pomoci objevit nové komplexní reakce a také osvětlit dříve neznámé mechanismy. „Dlouhodobý potenciál je obrovský, ale tohle je jen začátek.“

Výzkum byl podpořen konsorciem Machine Learning for Pharmaceutical Discovery and Synthesis a americkou Národní vědeckou nadací (NSF).

(Zdroj: MIT)

Zdroj: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html