Vietnam.vn - Nền tảng quảng bá Việt Nam

Un nouvel outil d'IA crée des photos de haute qualité, 9 fois plus rapidement.

Des scientifiques du MIT et de NVIDIA ont développé avec succès HART, un outil qui crée des images de haute qualité à une vitesse exceptionnellement rapide, tout en consommant si peu de ressources qu'il peut fonctionner directement sur un ordinateur portable ou un smartphone.

VietNamNetVietNamNet26/03/2025

photo 1.jpg

Cette image d'un astronaute à cheval a été créée à l'aide de deux types de modèles d'intelligence artificielle générative. Photo : MIT News


Quand la vitesse et la qualité ne sont plus un compromis

Dans le domaine de l'imagerie par IA, il existe actuellement deux approches principales :

Les modèles de diffusion permettent d'obtenir des images nettes et détaillées. Cependant, ils sont lents et gourmands en ressources de calcul, nécessitant des dizaines d'étapes de traitement pour éliminer le bruit de chaque pixel.

Les modèles autorégressifs sont beaucoup plus rapides car ils prédisent de petites parties d'une image de manière séquentielle. Cependant, ils produisent souvent des images moins détaillées et sont sujets aux erreurs.

HART (Hybrid Autoregressive Transformer) combine les deux approches, offrant ainsi le meilleur des deux mondes. Il utilise d'abord un modèle autorégressif pour construire l'image globale en l'encodant en jetons discrets. Ensuite, un modèle de diffusion léger prend le relais pour compléter les jetons résiduels – les informations détaillées perdues lors de l'encodage.

Les images obtenues sont d'une qualité comparable (ou supérieure) à celle des modèles de diffusion les plus récents, mais leur traitement est 9 fois plus rapide et elles utilisent 31 % de ressources de calcul en moins.

Nouvelle approche pour créer des images de qualité à haute vitesse

L'une des innovations notables de HART réside dans sa capacité à résoudre le problème de la perte d'informations lors de l'utilisation de modèles autorégressifs. La conversion des images en jetons discrets accélère le processus, mais entraîne également la perte de détails importants tels que les contours des objets, les traits du visage, les cheveux, les yeux, la bouche, etc.

La solution proposée par HART consiste à concentrer le modèle de diffusion uniquement sur la correction de ces détails grâce aux jetons résiduels. Le modèle autorégressif ayant déjà effectué la majeure partie du travail, le modèle de diffusion ne nécessite plus que 8 étapes de traitement au lieu de plus de 30 auparavant.

« Le modèle de diffusion est plus facile à mettre en œuvre, ce qui permet d’obtenir une efficacité accrue », explique Haotian Tang, co-auteur de l’étude.

Plus précisément, la combinaison d'un modèle de transformateur autorégressif avec 700 millions de paramètres et d'un modèle de diffusion léger avec 37 millions de paramètres confère à HART les mêmes performances qu'un modèle de diffusion avec jusqu'à 2 milliards de paramètres, mais 9 fois plus rapide.

Dans un premier temps, l'équipe a également tenté d'intégrer le modèle de diffusion aux premières étapes du processus de génération d'images, mais cela a engendré des erreurs. L'approche la plus efficace a consisté à laisser le modèle de diffusion gérer l'étape finale et à se concentrer uniquement sur les parties « manquantes » de l'image.

Ouvrir l'avenir de l'IA multimédia

La prochaine étape pour l'équipe consiste à développer des modèles d'IA visuo-linguistiques de nouvelle génération basés sur l'architecture HART. Grâce à sa capacité d'adaptation et à son évolutivité à une grande variété de types de données (multimodales), HART devrait pouvoir être utilisée pour la génération vidéo , la prédiction audio et bien d'autres domaines.

Ces travaux de recherche ont été financés par plusieurs organismes, dont le laboratoire d'intelligence artificielle MIT-IBM Watson, le centre scientifique MIT-Amazon, le programme de matériel d'intelligence artificielle du MIT et la Fondation nationale américaine pour la science (NSF). NVIDIA a également fourni l'infrastructure GPU nécessaire à l'entraînement du modèle.

(Selon MIT News)


Source : https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Comment (0)

Laissez un commentaire pour partager vos ressentis !

Même sujet

Même catégorie

La cathédrale Notre-Dame de Hô Chi Minh-Ville est illuminée de mille feux pour accueillir Noël 2025.
Les jeunes filles d'Hanoï se parent de magnifiques tenues pour les fêtes de Noël.
Après la tempête et les inondations, le village des chrysanthèmes du Têt à Gia Lai, illuminé par l'espoir d'éviter les coupures de courant qui permettraient de sauver les plants, a retrouvé toute sa splendeur.
La capitale de l'abricot jaune, dans la région Centre, a subi de lourdes pertes après une double catastrophe naturelle.

Même auteur

Patrimoine

Chiffre

Entreprise

Un café de Dalat voit sa clientèle augmenter de 300 % grâce au rôle joué par son propriétaire dans un film d'arts martiaux.

Actualités

Système politique

Locale

Produit

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC