Många försök har gjorts för att utnyttja kraften i artificiell intelligens (AI) och stora språkmodeller (LLM) för att förutsäga resultaten av nya kemiska reaktioner. Framgången har dock varit begränsad, till stor del för att dessa modeller inte är knutna till grundläggande fysikaliska principer som lagen om massans bevarande.

Nu har ett team vid MIT hittat ett sätt att införliva fysiska begränsningar i reaktionsförutsägelsemodeller, vilket avsevärt förbättrar resultatens noggrannhet och tillförlitlighet.

Bild av lektion 86.png
FlowER-systemet (Flow matching for Electron Redistribution) möjliggör detaljerad spårning av elektronernas rörelse, vilket säkerställer att inga elektroner läggs till eller förloras på konstgjord väg. Foto: MIT News

Arbetet, som publicerades den 20 augusti i tidskriften Nature, var medförfattat av Joonyoung Joung (numera biträdande professor vid Kookmin University, Sydkorea), den tidigare mjukvaruingenjören Mun Hong Fong (numera vid Duke University), kemiteknikstudenten Nicholas Casetti, postdoktoralen Jordan Liles, fysikstudenten Ne Dassanayake och huvudförfattaren Connor Coley, en professor i karriärutveckling från 1957 vid institutionen för kemiteknik och institutionen för elektrovetenskap och teknik.

Varför är det viktigt att förutsäga reaktioner?

”Att förutsäga resultatet av en reaktion är en mycket viktig uppgift”, förklarar Joung. Om man till exempel vill tillverka ett nytt läkemedel ”måste man veta hur man syntetiserar det. Detta kräver att man vet vilka produkter som sannolikt kommer att uppstå” från en uppsättning utgångsmaterial.

Tidigare försök har ofta bara tittat på in- och utdata, och ignorerat mellansteg och fysiska begränsningar som oförmågan att naturligt skapa eller förlora massa.

Joung påpekar att även om LLM-program som ChatGPT har haft viss framgång inom forskningen, saknar de en mekanism för att säkerställa att deras resultat följer fysikens lagar. ”Utan att bevara ’tokens’ (som representerar atomer) kommer LLM-program godtyckligt att skapa eller förstöra atomer i reaktionen”, säger han. ”Detta är mer som alkemi än vetenskap.”

FlowerER-lösning: Baserad på gammal plattform, tillämpad på ny teknik

För att övervinna detta använde teamet en metod från 1970-talet som utvecklades av kemisten Ivar Ugi – bindnings-elektronmatrisen – för att representera elektroner i en reaktion.

Baserat på det utvecklade de programmet FlowER (Flow matching for Electron Redistribution), vilket möjliggör detaljerad spårning av elektronernas rörelse, vilket säkerställer att inga elektroner läggs till eller förloras på konstgjord väg.

Denna matris använder ett värde som inte är noll för att representera en bindning eller ett par fria elektroner, och noll för det motsatta. "Detta gör att vi kan bevara både atomen och elektronen", förklarar Fong. Detta är nyckeln till att införliva massbevarande i modellen.

Tidiga men lovande bevis

Enligt Coley är det nuvarande systemet bara en demonstration – ett proof-of-concept som visar att "flödesmatchningsmetoden" är väl lämpad för att förutsäga kemiska reaktioner.

Trots att databasen har tränats med data från över en miljon kemiska reaktioner (insamlade från US Patent Office) saknar den fortfarande metall- och katalytiska reaktioner.

"Vi är glada över att systemet på ett tillförlitligt sätt kan förutsäga reaktionsmekanismen", sa Coley. "Det bevarar massa, det bevarar elektroner, men det finns definitivt sätt att utöka och förbättra robustheten under de kommande åren."

Modellen är nu allmänt tillgänglig på GitHub. Coley hoppas att den kommer att vara ett användbart verktyg för att bedöma reaktivitet och bygga responskartor.

Öppna datakällor och bred tillämpningspotential

"Vi offentliggjorde allt – från modellen till data och en tidigare datauppsättning som Joung byggt och som i detalj beskrev reaktionens kända mekanistiska steg", sa Fong.

Enligt teamet kan FlowER matcha eller överträffa befintliga metoder för att hitta standardmekanismer, samtidigt som det generaliserar till tidigare okända reaktionsklasser. Potentiella tillämpningar sträcker sig från farmaceutisk kemi, materialupptäckt , brandforskning, atmosfärskemi till elektrokemiska system.

Jämfört med andra system konstaterar Coley: ”Med det arkitekturval vi använder uppnår vi ett kvantsprång i validitet och integritet, samtidigt som vi bibehåller eller förbättrar noggrannheten något.”

Det unika, säger Coley, är att modellen inte ”uppfinner” mekanismer, utan snarare härleder dem baserat på experimentella data från patentlitteraturen. ”Vi extraherar mekanismer från experimentella data – något som aldrig har gjorts och delats i denna skala.”

Nästa steg

Teamet planerar att utöka modellens förståelse av metaller och katalytiska cykler. ”Vi har bara skrapat på ytan”, medger Coley.

På lång sikt tror han att systemet skulle kunna hjälpa till att upptäcka nya komplexa reaktioner, samt belysa tidigare okända mekanismer. ”Den långsiktiga potentialen är enorm, men detta är bara början.”

Forskningen stöddes av konsortiet Machine Learning for Pharmaceutical Discovery and Synthesis och den amerikanska National Science Foundation (NSF).

(Källa: MIT)

Källa: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html