
Bilden av astronauten som rider på en häst skapades genom att kombinera två typer av AI-genererade modeller. Foto: MIT News
När hastighet och kvalitet inte längre är en avvägning.
Inom området AI-driven bildskapande finns det för närvarande två huvudmetoder:
Diffusionsmodeller möjliggör skapandet av detaljerade, skarpa bilder. De är dock mycket långsamma och förbrukar mycket beräkningsresurser eftersom de kräver dussintals bearbetningssteg för att ta bort brus från varje pixel.
Autoregressiva modeller är å andra sidan mycket snabbare eftersom de kan förutsäga små delar av en bild sekventiellt. De producerar dock ofta bilder med mindre detaljer och är benägna att orsaka fel.
HART (hybrid autoregressiv transformator) kombinerar båda och erbjuder "det bästa av två världar". Först använder den en autoregressiv modell för att konstruera den övergripande bilden genom att koda den till diskreta tokens. Sedan bearbetar en något diffus modell ytterligare för att lägga till resttokens – detaljer som förlorats under kodningsprocessen.
Resultatet är bilder av jämförbar (eller överlägsen) kvalitet med de mest avancerade diffusionsmodellerna, men bearbetningen är nio gånger snabbare och använder 31 % mindre datorresurser.
Denna nya metod hjälper till att skapa högkvalitativa bilder i hög hastighet.
En av de anmärkningsvärda innovationerna i HART är hur det hanterar problemet med informationsförlust vid användning av autoregressiva modeller. Att konvertera bilder till diskreta tokens påskyndar processen, men resulterar också i förlust av viktiga detaljer som objektkonturer, ansiktsdrag, hår, ögon och mun.
HARTs lösning är att diffusionsmodellen enbart fokuserar på att "lappa ihop" dessa detaljer med hjälp av resterande tokens. Och eftersom modellen redan har gjort det mesta av arbetet genom autoregression behöver diffusionsmodellen bara 8 bearbetningssteg istället för över 30 som tidigare.
"Diffusionsmodellen är enklare att implementera och därför mer effektiv", förklarade medförfattaren Haotian Tang.
Mer specifikt gör kombinationen av en autoregressiv transformatormodell med 700 miljoner parametrar och en mild diffusionsmodell med 37 miljoner parametrar att HART kan uppnå prestanda jämförbar med en diffusionsmodell med upp till 2 miljarder parametrar, men nio gånger snabbare.
Inledningsvis försökte forskargruppen även integrera diffusionsmodellen i de tidiga stadierna av bildskapandeprocessen, men detta ledde till en ansamling av fel. Det mest effektiva tillvägagångssättet är att låta diffusionsmodellen hantera det sista steget och bara fokusera på de "saknade" delarna av bilden.
Låser upp framtiden för multimedia-AI.
Forskargruppens nästa steg är att bygga AI-visionsmodeller – nästa generations språk baserat på HART-arkitekturen. Eftersom HART är skalbart och anpassningsbart till många typer av data (multimodalt) förväntar de sig att kunna tillämpa det för videoskapande , ljudprediktion och många andra områden.
Denna forskning finansierades av flera organisationer, inklusive MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program och den amerikanska National Science Foundation. NVIDIA tillhandahöll också GPU-infrastruktur för att träna modellen.
(Enligt MIT News)
Källa: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)