Un nouvel outil d'IA crée des images de haute qualité 9 fois plus rapidement.

Des scientifiques du MIT et de NVIDIA ont développé avec succès HART, un outil permettant de créer des images de haute qualité à des vitesses exceptionnellement rapides, tout en consommant si peu de ressources qu'il peut fonctionner directement sur des ordinateurs portables ou des smartphones.

VietNamNet•26/03/2025

L'image de l'astronaute à cheval a été créée en combinant deux types de modèles générés par intelligence artificielle. Photo : MIT News

Quand vitesse et qualité ne sont plus incompatibles.

Dans le domaine de la création d'images assistée par l'IA, il existe actuellement deux méthodes principales :

Les modèles de diffusion permettent de créer des images détaillées et nettes. Cependant, ils sont très lents et consomment beaucoup de ressources de calcul car ils nécessitent des dizaines d'étapes de traitement pour éliminer le bruit de chaque pixel.

Les modèles autorégressifs, quant à eux, sont beaucoup plus rapides car ils peuvent prédire de petites parties d'une image de manière séquentielle. Cependant, ils produisent souvent des images moins détaillées et sont sujets aux erreurs.

HART (Hybrid Autoregressive Transformer) combine les deux approches, offrant ainsi le meilleur des deux mondes. Il utilise d'abord un modèle autorégressif pour construire l'image globale en l'encodant en jetons discrets. Ensuite, un modèle légèrement diffus intervient pour ajouter les jetons résiduels, c'est-à-dire les détails perdus lors de l'encodage.

Le résultat est une qualité d'images comparable (ou supérieure) à celle des modèles de diffusion les plus avancés, mais le traitement est neuf fois plus rapide et utilise 31 % de ressources informatiques en moins.

Cette nouvelle approche permet de créer des images de haute qualité à grande vitesse.

L'une des innovations notables de HART réside dans sa capacité à résoudre le problème de la perte d'informations lors de l'utilisation de modèles autorégressifs. La conversion des images en jetons discrets accélère le processus, mais entraîne également la perte de détails importants tels que les contours des objets, les traits du visage, les cheveux, les yeux et la bouche.

La solution proposée par HART consiste à concentrer le modèle de diffusion uniquement sur la correction de ces détails à l'aide des jetons résiduels. Grâce à l'autorégression, qui a déjà effectué la majeure partie du travail, le modèle de diffusion ne nécessite plus que 8 étapes de traitement au lieu de plus de 30 auparavant.

« Le modèle de diffusion est plus facile à mettre en œuvre et donc plus efficace », a expliqué Haotian Tang, co-auteur de l'étude.

Plus précisément, la combinaison d'un modèle de transformateur autorégressif avec 700 millions de paramètres et d'un modèle de diffusion douce avec 37 millions de paramètres permet à HART d'atteindre des performances comparables à celles d'un modèle de diffusion avec jusqu'à 2 milliards de paramètres, mais neuf fois plus rapide.

Dans un premier temps, l'équipe de recherche a également tenté d'intégrer le modèle de diffusion aux premières étapes du processus de création d'images, mais cela a entraîné une accumulation d'erreurs. L'approche la plus efficace consiste à laisser le modèle de diffusion gérer l'étape finale et à se concentrer uniquement sur les parties « manquantes » de l'image.

Dévoiler l'avenir de l'IA multimédia.

La prochaine étape pour l'équipe de recherche consiste à développer des modèles de vision par IA : un langage de nouvelle génération basé sur l'architecture HART. Grâce à son évolutivité et à sa capacité d'adaptation à de nombreux types de données (multimodales), HART devrait pouvoir être appliqué à la création vidéo , à la prédiction audio et à bien d'autres domaines.

Ces travaux de recherche ont été financés par plusieurs organismes, dont le laboratoire d'intelligence artificielle MIT-IBM Watson, le centre scientifique MIT-Amazon, le programme de matériel d'intelligence artificielle du MIT et la Fondation nationale américaine pour la science (NSF). NVIDIA a également fourni l'infrastructure GPU nécessaire à l'entraînement du modèle.

(Selon MIT News)

Source : https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html