Er zijn veel pogingen gedaan om de kracht van kunstmatige intelligentie (AI) en grote taalmodellen (LLM's) te benutten om de uitkomsten van nieuwe chemische reacties te voorspellen. Het succes is echter beperkt gebleven, grotendeels omdat deze modellen niet gekoppeld zijn aan fundamentele natuurkundige principes zoals de wet van behoud van massa.
Een team van MIT heeft nu een manier gevonden om fysieke beperkingen op te nemen in reactievoorspellingsmodellen. Hierdoor zijn de nauwkeurigheid en betrouwbaarheid van de resultaten aanzienlijk verbeterd.

Het werk, dat op 20 augustus werd gepubliceerd in het tijdschrift Nature, werd mede geschreven door Joonyoung Joung (nu universitair docent aan de Kookmin University in Zuid-Korea), voormalig softwareontwikkelaar Mun Hong Fong (nu aan de Duke University), student chemische technologie Nicholas Casetti, postdoctoraal onderzoeker Jordan Liles, student natuurkunde Ne Dassanayake en hoofdauteur Connor Coley, hoogleraar loopbaanontwikkeling in 1957 aan de afdeling chemische technologie en de afdeling elektrotechniek.
Waarom is reactievoorspelling belangrijk?
"Het voorspellen van de uitkomst van een reactie is een zeer belangrijke taak", legt Joung uit. Als je bijvoorbeeld een nieuw medicijn wilt maken, "moet je weten hoe je het moet synthetiseren. Dit vereist dat je weet welke producten er waarschijnlijk zullen ontstaan" uit een set uitgangsmaterialen.
Bij eerdere pogingen werd vaak alleen gekeken naar invoer- en uitvoergegevens. Tussenstappen en fysieke beperkingen, zoals het onvermogen om op natuurlijke wijze massa te creëren of te verliezen, werden genegeerd.
Joung wijst erop dat, hoewel LLM's zoals ChatGPT enig succes hebben geboekt in onderzoek, ze een mechanisme missen om ervoor te zorgen dat hun resultaten de natuurwetten volgen. "Zonder de 'tokens' (die atomen vertegenwoordigen) te behouden, zullen LLM's willekeurig atomen creëren of vernietigen in de reactie", zegt hij. "Dit lijkt meer op alchemie dan op wetenschap."
FlowerER-oplossing: gebaseerd op een oud platform, toegepast op nieuwe technologie
Om dit probleem te verhelpen, gebruikte het team een methode uit de jaren zeventig, ontwikkeld door chemicus Ivar Ugi – de binding-elektronenmatrix – om elektronen in een reactie weer te geven.
Op basis daarvan ontwikkelden ze het programma FlowER (Flow matching for Electron Redistribution), waarmee de beweging van elektronen gedetailleerd kan worden gevolgd. Zo wordt gegarandeerd dat er geen elektronen kunstmatig worden toegevoegd of verloren gaan.
Deze matrix gebruikt een waarde ongelijk aan nul om een binding of een paar vrije elektronen weer te geven, en nul voor het tegenovergestelde. "Dit stelt ons in staat om zowel het atoom als het elektron te behouden", legt Fong uit. Dit is essentieel om massabehoud in het model op te nemen.
Vroeg maar veelbelovend bewijs
Volgens Coley is het huidige systeem slechts een demonstratie, een proof-of-concept dat aantoont dat de ‘flow matching’-methode zeer geschikt is om chemische reacties te voorspellen.
Hoewel de database is getraind met gegevens van meer dan een miljoen chemische reacties (verzameld door het Amerikaanse octrooibureau), ontbreken nog steeds reacties op basis van metalen en katalytica.
"We zijn enthousiast dat het systeem het reactiemechanisme betrouwbaar kan voorspellen", aldus Coley. "Het bespaart massa en elektronen, maar er zijn zeker manieren om de robuustheid de komende jaren uit te breiden en te verbeteren."
Het model is nu openbaar beschikbaar op GitHub. Coley hoopt dat het een nuttig hulpmiddel zal zijn voor het beoordelen van reactiviteit en het maken van responskaarten.
Open databronnen en breed toepassingspotentieel
"We hebben alles openbaar gemaakt: van het model tot de gegevens en een eerdere dataset van Joung waarin de bekende mechanistische stappen van de reactie gedetailleerd werden beschreven", aldus Fong.
Volgens het team kan FlowER bestaande methoden evenaren of overtreffen bij het vinden van standaardmechanismen, en tegelijkertijd generaliseren naar voorheen onbekende reactieklassen. Mogelijke toepassingen variëren van farmaceutische chemie, materiaalonderzoek , brandonderzoek, atmosferische chemie tot elektrochemische systemen.
Vergeleken met andere systemen merkt Coley op: "Met de architectuurkeuze die we maken, realiseren we een enorme sprong voorwaarts in validiteit en integriteit, terwijl we de nauwkeurigheid behouden of licht verbeteren."
Het unieke, zegt Coley, is dat het model geen mechanismen "uitvindt", maar ze afleidt op basis van experimentele data uit de patentliteratuur. "We halen mechanismen uit experimentele data – iets wat nog nooit eerder is gedaan en op deze schaal is gedeeld."
Volgende stap
Het team is van plan het inzicht in metalen en katalytische cycli binnen het model uit te breiden. "We hebben nog maar aan het begin gestaan", geeft Coley toe.
Op de lange termijn gelooft hij dat het systeem kan helpen bij het ontdekken van nieuwe complexe reacties en licht kan werpen op voorheen onbekende mechanismen. "Het potentieel op lange termijn is enorm, maar dit is nog maar het begin."
Het onderzoek werd ondersteund door het consortium Machine Learning for Pharmaceutical Discovery and Synthesis en de Amerikaanse National Science Foundation (NSF).
(Bron: MIT)
Bron: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html
Reactie (0)