
De afbeelding van de astronaut te paard is tot stand gekomen door twee soorten AI-gegenereerde modellen te combineren. Foto: MIT News
Wanneer snelheid en kwaliteit geen compromis meer vormen.
Op het gebied van AI-gestuurde beeldcreatie zijn er momenteel twee belangrijke methoden:
Diffusiemodellen maken het mogelijk om gedetailleerde, scherpe beelden te creëren. Ze zijn echter erg traag en verbruiken veel rekenkracht, omdat er tientallen verwerkingsstappen nodig zijn om ruis uit elke pixel te verwijderen.
Autoregressieve modellen zijn daarentegen veel sneller omdat ze kleine delen van een afbeelding sequentieel kunnen voorspellen. Ze produceren echter vaak afbeeldingen met minder detail en zijn gevoelig voor fouten.
HART (hybride autoregressieve transformator) combineert beide en biedt "het beste van twee werelden". Eerst gebruikt het een autoregressief model om het algehele beeld te construeren door het te coderen in discrete tokens. Vervolgens verwerkt een enigszins diffuus model het beeld verder om residuele tokens toe te voegen – details die verloren zijn gegaan tijdens het coderingsproces.
Het resultaat zijn beelden van vergelijkbare (of zelfs superieure) kwaliteit als de meest geavanceerde diffusiemodellen, maar de verwerking is negen keer sneller en gebruikt 31% minder computerbronnen.
Deze nieuwe aanpak helpt bij het creëren van hoogwaardige beelden met hoge snelheid.
Een van de opmerkelijke innovaties van HART is de manier waarop het het probleem van informatieverlies bij het gebruik van autoregressieve modellen aanpakt. Het omzetten van afbeeldingen in discrete tokens versnelt het proces, maar resulteert ook in het verlies van belangrijke details zoals objectcontouren, gelaatstrekken, haar, ogen en mond.
De oplossing van HART is om het diffusiemodel zich uitsluitend te laten richten op het "aanvullen" van deze details met behulp van residuele tokens. En omdat het model het meeste werk al heeft gedaan via autoregressie, heeft het diffusiemodel slechts 8 verwerkingsstappen nodig in plaats van meer dan 30 zoals voorheen.
"Het diffusiemodel is gemakkelijker te implementeren en daardoor effectiever," legde mede-auteur Haotian Tang uit.
Concreet zorgt de combinatie van een autoregressief transformermodel met 700 miljoen parameters en een mild diffusiemodel met 37 miljoen parameters ervoor dat HART prestaties levert die vergelijkbaar zijn met een diffusiemodel met maximaal 2 miljard parameters, maar dan negen keer sneller.
Aanvankelijk probeerde het onderzoeksteam het diffusiemodel ook te integreren in de vroege stadia van het beeldcreatieproces, maar dit leidde tot een opeenstapeling van fouten. De meest effectieve aanpak is om het diffusiemodel de laatste stap te laten afhandelen en zich alleen te concentreren op de "ontbrekende" delen van het beeld.
De toekomst van multimedia-AI ontsluiten.
De volgende stap van het onderzoeksteam is het bouwen van AI-visiemodellen – een nieuwe generatie programmeertaal gebaseerd op de HART-architectuur. Omdat HART schaalbaar en aanpasbaar is aan veel verschillende soorten data (multimodaal), verwachten ze het te kunnen toepassen op videocreatie , audiovoorspelling en vele andere gebieden.
Dit onderzoek werd gefinancierd door diverse organisaties, waaronder het MIT-IBM Watson AI Lab, het MIT-Amazon Science Center, het MIT AI Hardware Program en de U.S. National Science Foundation. NVIDIA leverde tevens de GPU-infrastructuur voor het trainen van het model.
(Volgens MIT News)
Bron: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Reactie (0)