De nombreuses tentatives ont été menées pour exploiter la puissance de l'intelligence artificielle (IA) et des grands modèles de langage (GML) afin de prédire les résultats de nouvelles réactions chimiques. Cependant, le succès est resté limité, principalement parce que ces modèles ne sont pas liés à des principes physiques fondamentaux tels que la loi de conservation de la masse.

Une équipe du MIT a trouvé un moyen d'intégrer des contraintes physiques dans les modèles de prédiction des réactions, améliorant ainsi considérablement la précision et la fiabilité des résultats.

Image de la leçon 86.png
Le système FlowER (Flow matching for Electron Redistribution) permet un suivi précis du mouvement des électrons, garantissant ainsi qu'aucun électron n'est ajouté ou perdu artificiellement. Photo : MIT News

L'article, publié le 20 août dans la revue Nature, a été co-écrit par Joonyoung Joung (actuellement professeur adjoint à l'université Kookmin, en Corée du Sud), l'ancien ingénieur logiciel Mun Hong Fong (actuellement à l'université Duke), l'étudiant diplômé en génie chimique Nicholas Casetti, le chercheur postdoctoral Jordan Liles, l'étudiant en physique Ne Dassanayake et l'auteur principal Connor Coley, professeur de développement de carrière 1957 au département de génie chimique et au département de sciences et génie électriques.

Pourquoi la prédiction des réactions est-elle importante ?

« Prédire l’issue d’une réaction est une tâche essentielle », explique Joung. Par exemple, pour créer un nouveau médicament, « il faut savoir comment le synthétiser. Cela implique de connaître les produits susceptibles d’apparaître » à partir d’un ensemble de réactifs.

Les tentatives précédentes se sont souvent limitées à l'étude des données d'entrée et de sortie, ignorant les étapes intermédiaires et les contraintes physiques telles que l'incapacité à créer ou à perdre naturellement de la masse.

Joung souligne que, malgré certains succès obtenus par les modèles linéaires à longue portée (LLM) comme ChatGPT dans la recherche, ils ne disposent d'aucun mécanisme garantissant que leurs résultats respectent les lois de la physique. « Sans conservation des "jetons" (qui représentent les atomes), les LLM créent ou détruisent arbitrairement des atomes lors de la réaction », explique-t-il. « C'est plus proche de l'alchimie que de la science. »

Solution FlowerER : Basée sur une plateforme existante, appliquée aux nouvelles technologies

Pour surmonter cette difficulté, l'équipe a utilisé une méthode des années 1970 mise au point par le chimiste Ivar Ugi – la matrice des électrons de liaison – pour représenter les électrons dans une réaction.

Sur cette base, ils ont développé le programme FlowER (Flow matching for Electron Redistribution), qui permet un suivi précis du mouvement des électrons, garantissant qu'aucun électron n'est ajouté ou perdu artificiellement.

Cette matrice utilise une valeur non nulle pour représenter une liaison ou une paire d'électrons libres, et zéro dans le cas contraire. « Cela nous permet de conserver à la fois l'atome et l'électron », explique Fong. C'est essentiel pour intégrer la conservation de la masse au modèle.

Preuves préliminaires mais prometteuses

Selon Coley, le système actuel n'est qu'une démonstration, une preuve de concept montrant que la méthode de « correspondance des flux » est bien adaptée à la prédiction des réactions chimiques.

Bien qu'entraînée avec des données provenant de plus d'un million de réactions chimiques (collectées auprès de l'Office des brevets des États-Unis), la base de données manque encore de réactions à base de métaux et de catalyseurs.

« Nous sommes ravis que le système puisse prédire avec fiabilité le mécanisme réactionnel », a déclaré Coley. « Il conserve la masse et les électrons, mais il existe certainement des moyens d'étendre et d'améliorer sa robustesse dans les années à venir. »

Le modèle est désormais accessible au public sur GitHub. Coley espère qu'il constituera un outil utile pour évaluer la réactivité et élaborer des cartographies des réponses.

Sources de données ouvertes et vaste potentiel d'application

« Nous avons tout rendu public, du modèle aux données, en passant par un ensemble de données précédent constitué par Joung qui détaillait les étapes mécanistiques connues de la réaction », a déclaré Fong.

D'après l'équipe, FlowER peut égaler, voire surpasser, les méthodes existantes pour identifier les mécanismes réactionnels standards, tout en s'appliquant à des classes de réactions jusqu'alors inconnues. Ses applications potentielles sont nombreuses : chimie pharmaceutique, découverte de matériaux, recherche sur les incendies, chimie atmosphérique et systèmes électrochimiques.

Par rapport à d'autres systèmes, Coley remarque : « Grâce au choix architectural que nous utilisons, nous réalisons un bond en avant considérable en matière de validité et d'intégrité, tout en maintenant, voire en améliorant légèrement, la précision. »

Ce qui est unique, explique Coley, c'est que le modèle ne « crée » pas de mécanismes, mais les déduit plutôt de données expérimentales issues de la littérature brevetaire. « Nous extrayons des mécanismes à partir de données expérimentales — une approche inédite, jamais vue auparavant et partagée à cette échelle. »

Étape suivante

L’équipe prévoit d’approfondir la compréhension du modèle en ce qui concerne les métaux et la catalyse. « Nous n’avons fait qu’effleurer le sujet », admet Coley.

À long terme, il estime que ce système pourrait permettre de découvrir de nouvelles réactions complexes et d'éclairer des mécanismes jusqu'alors inconnus. « Le potentiel à long terme est immense, mais ce n'est que le début. »

Ces recherches ont été soutenues par le consortium Machine Learning for Pharmaceutical Discovery and Synthesis et la National Science Foundation (NSF) des États-Unis.

(Source : MIT)

Source : https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html