Mange forsøk har blitt gjort på å utnytte kraften i kunstig intelligens (KI) og store språkmodeller (LLM-er) for å forutsi utfallene av nye kjemiske reaksjoner. Suksessen har imidlertid vært begrenset, hovedsakelig fordi disse modellene ikke er knyttet til grunnleggende fysiske prinsipper som loven om bevaring av masse.
Nå har et team ved MIT funnet en måte å innlemme fysiske begrensninger i reaksjonsprediksjonsmodeller, noe som forbedrer nøyaktigheten og påliteligheten til resultatene betydelig.

Arbeidet, publisert 20. august i tidsskriftet Nature, ble skrevet i samarbeid med Joonyoung Joung (nå assisterende professor ved Kookmin University i Sør-Korea), tidligere programvareingeniør Mun Hong Fong (nå ved Duke University), kjemiteknikkstudent Nicholas Casetti, postdoktor Jordan Liles, fysikkstudent Ne Dassanayake og hovedforfatter Connor Coley, en karriereutviklingsprofessor fra 1957 ved Institutt for kjemiteknikk og Institutt for elektrovitenskap og -teknikk.
Hvorfor er reaksjonsprediksjon viktig?
«Å forutsi utfallet av en reaksjon er en svært viktig oppgave», forklarer Joung. Hvis du for eksempel vil lage et nytt legemiddel, «må du vite hvordan du syntetiserer det. Dette krever at du vet hvilke produkter som sannsynligvis vil oppstå» fra et sett med utgangsmaterialer.
Tidligere forsøk har ofte bare sett på input- og output-data, og ignorert mellomliggende trinn og fysiske begrensninger som manglende evne til å naturlig skape eller miste masse.
Joung påpeker at selv om LLM-er som ChatGPT har hatt en viss suksess i forskning, mangler de en mekanisme for å sikre at resultatene deres følger fysikkens lover. «Uten å bevare 'tokens' (som representerer atomer), vil LLM-er vilkårlig skape eller ødelegge atomer i reaksjonen», sier han. «Dette ligner mer på alkymi enn vitenskap.»
FlowerER-løsning: Basert på gammel plattform, anvendt på ny teknologi
For å overvinne dette brukte teamet en metode fra 1970-tallet utviklet av kjemikeren Ivar Ugi – bindings-elektronmatrisen – for å representere elektroner i en reaksjon.
Basert på dette utviklet de FlowER-programmet (Flow matching for Electron Redistribution), som muliggjør detaljert sporing av elektronenes bevegelse, og sikrer at ingen elektroner kunstig legges til eller går tapt.
Denne matrisen bruker en verdi som ikke er null for å representere en binding eller et par frie elektroner, og null for det motsatte. «Dette lar oss bevare både atomet og elektronet», forklarer Fong. Dette er nøkkelen til å innlemme massebevaring i modellen.
Tidlige, men lovende bevis
Ifølge Coley er det nåværende systemet bare en demonstrasjon – et konseptbevis som viser at «flytmatching»-metoden er godt egnet til å forutsi kjemiske reaksjoner.
Til tross for at den er trent med data fra over en million kjemiske reaksjoner (innsamlet fra US Patent Office), mangler databasen fortsatt metall- og katalytisk baserte reaksjoner.
«Vi er begeistret over at systemet kan forutsi reaksjonsmekanismen på en pålitelig måte», sa Coley. «Det bevarer masse, det bevarer elektroner, men det finnes absolutt måter å utvide og forbedre robustheten på i årene som kommer.»
Modellen er nå offentlig tilgjengelig på GitHub. Coley håper den vil være et nyttig verktøy for å vurdere reaktivitet og bygge responskart.
Åpne datakilder og bredt anvendelsespotensial
«Vi offentliggjorde alt – fra modellen til dataene og et tidligere datasett bygget av Joung som beskrev de kjente mekanistiske trinnene i reaksjonen i detalj», sa Fong.
Ifølge teamet kan FlowER matche eller overgå eksisterende metoder for å finne standardmekanismer, samtidig som den generaliserer til tidligere usete reaksjonsklasser. Potensielle bruksområder spenner fra farmasøytisk kjemi, materialutvikling , brannforskning, atmosfærisk kjemi til elektrokjemiske systemer.
Sammenlignet med andre systemer, bemerker Coley: «Med det arkitektoniske valget vi bruker, oppnår vi et kvantesprang i validitet og integritet, samtidig som vi opprettholder eller forbedrer nøyaktigheten noe.»
Det unike, sier Coley, er at modellen ikke «finner opp» mekanismer, men snarere utleder dem basert på eksperimentelle data fra patentlitteratur. «Vi trekker ut mekanismer fra eksperimentelle data – noe som aldri har blitt gjort og delt i denne skalaen.»
Neste steg
Teamet planlegger å utvide modellens forståelse av metaller og katalytiske sykluser. «Vi har bare skrapt i overflaten», innrømmer Coley.
På lang sikt tror han at systemet kan bidra til å oppdage nye komplekse reaksjoner, samt kaste lys over tidligere ukjente mekanismer. «Det langsiktige potensialet er enormt, men dette er bare begynnelsen.»
Forskningen ble støttet av konsortiet Machine Learning for Pharmaceutical Discovery and Synthesis og det amerikanske National Science Foundation (NSF).
(Kilde: MIT)
Kilde: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html
Kommentar (0)