Nytt AI-verktyg skapar högkvalitativa foton, 9 gånger snabbare

foto 1.jpg

Denna bild av en astronaut som rider på en häst skapades med hjälp av två typer av generativa AI-modeller. Foto: MIT News

När hastighet och kvalitet inte längre är en avvägning

Inom området AI-avbildning finns det för närvarande två huvudsakliga metoder:

Diffusionsmodeller möjliggör skarpa, detaljerade bilder. De är dock långsamma och beräkningsmässigt dyra, och kräver dussintals bearbetningssteg för att ta bort brus från varje pixel.

Autoregressiva modeller är mycket snabbare eftersom de förutsäger små delar av en bild sekventiellt. Men de producerar ofta bilder med mindre detaljer och är benägna att orsaka fel.

HART (hybrid autoregressiv transformator) kombinerar de två och erbjuder "det bästa av två världar". Först använder den en autoregressiv modell för att konstruera den övergripande bilden genom att koda den till diskreta tokens. Sedan tar en lätt diffusionsmodell över för att fylla i de återstående tokensen – den detaljerade information som går förlorad under kodningen.

De resulterande bilderna har jämförbar (eller bättre) kvalitet som toppmoderna diffusionsmodeller, men är 9 gånger snabbare att bearbeta och använder 31 % färre beräkningsresurser.

Ny metod för att skapa högkvalitativa bilder i hög hastighet

En av de anmärkningsvärda innovationerna med HART är hur det löser problemet med informationsförlust vid användning av autoregressiva modeller. Att konvertera bilder till diskreta tokens snabbar upp processen, men förlorar också viktiga detaljer som objektkanter, ansiktsdrag, hår, ögon, munnar etc.

HARTs lösning är att diffusionsmodellen fokuserar enbart på att "lappa ihop" dessa detaljer genom resterande tokens. Och eftersom den autoregressiva modellen redan har gjort det mesta av arbetet behöver diffusionsmodellen bara 8 bearbetningssteg istället för över 30 steg som tidigare.

"Diffusionsmodellen är enklare att implementera, vilket leder till högre effektivitet", förklarar medförfattaren Haotian Tang.

Mer specifikt ger kombinationen av en autoregressiv transformatormodell med 700 miljoner parametrar och en lätt diffusionsmodell med 37 miljoner parametrar HART samma prestanda som en diffusionsmodell med upp till 2 miljarder parametrar, men 9 gånger snabbare.

Inledningsvis försökte teamet även integrera diffusionsmodellen i de tidiga stadierna av bildgenereringsprocessen, men detta ackumulerade fel. Det mest effektiva tillvägagångssättet var att låta diffusionsmodellen hantera det sista steget och bara fokusera på de "saknade" delarna av bilden.

Öppnar framtiden för multimedia AI

Teamets nästa steg är att bygga nästa generations visuell-lingvistiska AI-modeller baserade på HART-arkitekturen. Eftersom HART är skalbart och anpassningsbart till ett brett spektrum av datatyper (multimodalt) förväntar de sig att kunna tillämpa det för videogenerering , ljudprediktion och många andra områden.

Denna forskning finansierades av flera organisationer, inklusive MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program och US National Science Foundation. NVIDIA donerade också GPU-infrastruktur för att träna modellen.

Kommentar (0)