De nombreuses tentatives ont été faites pour exploiter la puissance de l'intelligence artificielle (IA) et des grands modèles de langage (MLL) afin de prédire les résultats de nouvelles réactions chimiques. Cependant, le succès a été limité, en grande partie parce que ces modèles ne sont pas liés à des principes physiques fondamentaux tels que la loi de conservation de la masse.

Une équipe du MIT a désormais trouvé un moyen d’intégrer des contraintes physiques dans les modèles de prédiction de réactions, améliorant ainsi considérablement la précision et la fiabilité des résultats.

Image de la leçon 86.png
Le système FlowER (Flow matching for Electron Redistribution) permet un suivi précis du mouvement des électrons, garantissant ainsi qu'aucun électron n'est ajouté ou perdu artificiellement. Photo : MIT News

L'étude, publiée le 20 août dans la revue Nature, a été co-écrite par Joonyoung Joung (aujourd'hui professeur adjoint à l'université Kookmin, en Corée du Sud), l'ancien ingénieur logiciel Mun Hong Fong (aujourd'hui à l'université Duke), l'étudiant diplômé en génie chimique Nicholas Casetti, le chercheur postdoctoral Jordan Liles, l'étudiant en physique Ne Dassanayake et l'auteur principal Connor Coley, professeur de développement de carrière depuis 1957 au département de génie chimique et au département de sciences et d'ingénierie électriques.

Pourquoi la prédiction de réaction est-elle importante ?

« Prédire l'issue d'une réaction est une tâche cruciale », explique Joung. Par exemple, si l'on souhaite fabriquer un nouveau médicament, « il faut savoir le synthétiser. Cela nécessite de connaître les produits susceptibles d'apparaître » à partir d'un ensemble de matières premières.

Les tentatives précédentes ont souvent porté uniquement sur les données d’entrée et de sortie, ignorant les étapes intermédiaires et les contraintes physiques telles que l’incapacité à créer ou à perdre naturellement de la masse.

Joung souligne que, si les LLM comme ChatGPT ont connu un certain succès en recherche, ils manquent de mécanisme garantissant que leurs résultats respectent les lois de la physique. « Sans conservation des “tokens” (qui représentent les atomes), les LLM créeront ou détruiront arbitrairement des atomes lors de la réaction », explique-t-il. « Cela s'apparente davantage à de l'alchimie qu'à de la science. »

Solution FlowerER : Basée sur une ancienne plateforme, appliquée à une nouvelle technologie

Pour surmonter ce problème, l’équipe a utilisé une méthode des années 1970 développée par le chimiste Ivar Ugi – la matrice liaison-électron – pour représenter les électrons dans une réaction.

Sur cette base, ils ont développé le programme FlowER (Flow matching for Electron Redistribution), qui permet un suivi détaillé du mouvement des électrons, garantissant qu'aucun électron n'est ajouté ou perdu artificiellement.

Cette matrice utilise une valeur non nulle pour représenter une liaison ou une paire d'électrons libres, et zéro pour l'inverse. « Cela nous permet de conserver à la fois l'atome et l'électron », explique Fong. C'est essentiel pour intégrer la conservation de la masse dans le modèle.

Des preuves précoces mais prometteuses

Selon Coley, le système actuel n’est qu’une démonstration, une preuve de concept qui montre que la méthode de « correspondance de flux » est bien adaptée à la prédiction des réactions chimiques.

Bien qu'elle ait été formée avec des données provenant de plus d'un million de réactions chimiques (collectées auprès de l'Office des brevets des États-Unis), la base de données manque toujours de réactions à base de métaux et de catalyseurs.

« Nous sommes ravis que le système puisse prédire avec fiabilité le mécanisme réactionnel », a déclaré Coley. « Il conserve la masse et les électrons, mais il existe certainement des moyens d'étendre et d'améliorer sa robustesse dans les années à venir. »

Le modèle est désormais disponible publiquement sur GitHub. Coley espère qu'il constituera un outil utile pour évaluer la réactivité et élaborer des cartes de réponse.

Sources de données ouvertes et large potentiel d'application

« Nous avons tout rendu public : du modèle aux données, en passant par un ensemble de données précédent construit par Joung qui détaillait les étapes mécanistiques connues de la réaction », a déclaré Fong.

Selon l'équipe, FlowER peut égaler, voire surpasser, les méthodes existantes pour identifier des mécanismes standards, tout en se généralisant à des classes de réactions jusqu'alors inédites. Les applications potentielles vont de la chimie pharmaceutique à la découverte de matériaux, en passant par la recherche sur les incendies, la chimie atmosphérique et les systèmes électrochimiques.

Par rapport à d’autres systèmes, Coley note : « Avec le choix architectural que nous utilisons, nous réalisons un saut quantique en termes de validité et d’intégrité, tout en maintenant ou en améliorant légèrement la précision. »

Ce qui est unique, explique Coley, c'est que le modèle n'invente pas de mécanismes, mais les déduit à partir de données expérimentales issues de la littérature sur les brevets. « Nous extrayons des mécanismes à partir de données expérimentales, une démarche jamais réalisée et partagée à cette échelle. »

Prochaine étape

L'équipe prévoit d'approfondir la compréhension du modèle sur les métaux et la catalyse. « Nous n'avons fait qu'effleurer la surface », admet Coley.

À long terme, il pense que le système pourrait permettre de découvrir de nouvelles réactions complexes et de mettre en lumière des mécanismes jusque-là inconnus. « Le potentiel à long terme est énorme, mais ce n'est qu'un début. »

La recherche a été soutenue par le consortium Machine Learning for Pharmaceutical Discovery and Synthesis et la National Science Foundation (NSF) des États-Unis.

(Source : MIT)

Source: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html