Deze afbeelding van een astronaut op een paard is gemaakt met behulp van twee soorten generatieve AI-modellen. Foto: MIT News
Als snelheid en kwaliteit geen afweging meer zijn
Op het gebied van AI-beeldvorming zijn er momenteel twee hoofdbenaderingen:
Diffusiemodellen maken scherpe, gedetailleerde beelden mogelijk. Ze zijn echter traag en rekenintensief, en vereisen tientallen verwerkingsstappen om ruis uit elke pixel te verwijderen.
Autoregressieve modellen zijn veel sneller omdat ze kleine delen van een afbeelding sequentieel voorspellen. Ze produceren echter vaak afbeeldingen met minder details en zijn foutgevoelig.
HART (hybride autoregressieve transformator) combineert beide en biedt zo het "beste van twee werelden". Eerst wordt een autoregressief model gebruikt om het totale beeld te construeren door het te coderen in discrete tokens. Vervolgens vult een lichtgewicht diffusiemodel de resterende tokens in – de gedetailleerde informatie die verloren gaat tijdens het coderen.
De resulterende beelden zijn van vergelijkbare (of betere) kwaliteit als die van geavanceerde diffusiemodellen, maar kunnen 9x sneller worden verwerkt en vereisen 31% minder computerkracht.
Nieuwe aanpak voor het maken van kwaliteitsbeelden met hoge snelheid
Een van de opmerkelijke innovaties van HART is de oplossing voor het probleem van informatieverlies bij het gebruik van autoregressieve modellen. Het converteren van afbeeldingen naar discrete tokens versnelt het proces, maar gaat ook gepaard met verlies van belangrijke details zoals objectranden, gelaatstrekken, haar, ogen, mond, enzovoort.
De oplossing van HART is om het diffusiemodel zich alleen te laten richten op het "opvullen" van deze details met behulp van resttokens. En aangezien het autoregressieve model het meeste werk al heeft gedaan, heeft het diffusiemodel slechts 8 verwerkingsstappen nodig in plaats van de meer dan 30 stappen die voorheen nodig waren.
“Het diffusiemodel is eenvoudiger te implementeren, wat leidt tot een hogere efficiëntie”, legt medeauteur Haotian Tang uit.
De combinatie van een autoregressief transformatormodel met 700 miljoen parameters en een lichtgewicht diffusiemodel met 37 miljoen parameters geeft HART dezelfde prestaties als een diffusiemodel met maximaal 2 miljard parameters, maar is 9 keer sneller.
Aanvankelijk probeerde het team het diffusiemodel ook te integreren in de beginfase van het beeldgeneratieproces, maar dit leverde fouten op. De meest effectieve aanpak was om het diffusiemodel de laatste stap te laten doen en zich alleen te richten op de 'ontbrekende' delen van de afbeelding.
De toekomst van multimedia-AI openen
De volgende stap van het team is het bouwen van visueel-linguïstische AI-modellen van de volgende generatie, gebaseerd op de HART-architectuur. Omdat HART schaalbaar en aanpasbaar is aan een breed scala aan datatypen (multimodaal), verwachten ze het te kunnen toepassen op videogeneratie , audiovoorspelling en vele andere gebieden.
Dit onderzoek werd gefinancierd door verschillende organisaties, waaronder het MIT-IBM Watson AI Lab, het MIT-Amazon Science Center, het MIT AI Hardware Program en de Amerikaanse National Science Foundation. NVIDIA doneerde ook GPU-infrastructuur om het model te trainen.
(Volgens MIT News)
Bron: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Reactie (0)