Vietnam.vn - Nền tảng quảng bá Việt Nam

Nytt AI-verktyg skapar högkvalitativa foton, 9 gånger snabbare

Forskare från MIT och NVIDIA har framgångsrikt utvecklat HART – ett verktyg som skapar högkvalitativa bilder med en exceptionellt snabb hastighet, samtidigt som det förbrukar så lite resurser att det kan köras direkt på en bärbar dator eller smartphone.

VietNamNetVietNamNet26/03/2025

foto 1.jpg

Denna bild av en astronaut som rider på en häst skapades med hjälp av två typer av generativa AI-modeller. Foto: MIT News


När hastighet och kvalitet inte längre är en avvägning

Inom området AI-avbildning finns det för närvarande två huvudsakliga metoder:

Diffusionsmodeller möjliggör skarpa, detaljerade bilder. De är dock långsamma och beräkningsmässigt dyra, och kräver dussintals bearbetningssteg för att ta bort brus från varje pixel.

Autoregressiva modeller är mycket snabbare eftersom de förutsäger små delar av en bild sekventiellt. Men de producerar ofta bilder med mindre detaljer och är benägna att orsaka fel.

HART (hybrid autoregressiv transformator) kombinerar de två och erbjuder "det bästa av två världar". Först använder den en autoregressiv modell för att konstruera den övergripande bilden genom att koda den till diskreta tokens. Sedan tar en lätt diffusionsmodell över för att fylla i de återstående tokensen – den detaljerade information som går förlorad under kodningen.

De resulterande bilderna har jämförbar (eller bättre) kvalitet som toppmoderna diffusionsmodeller, men är 9 gånger snabbare att bearbeta och använder 31 % färre beräkningsresurser.

Ny metod för att skapa högkvalitativa bilder i hög hastighet

En av de anmärkningsvärda innovationerna med HART är hur det löser problemet med informationsförlust vid användning av autoregressiva modeller. Att konvertera bilder till diskreta tokens snabbar upp processen, men förlorar också viktiga detaljer som objektkanter, ansiktsdrag, hår, ögon, munnar etc.

HARTs lösning är att diffusionsmodellen fokuserar enbart på att "lappa ihop" dessa detaljer genom resterande tokens. Och eftersom den autoregressiva modellen redan har gjort det mesta av arbetet behöver diffusionsmodellen bara 8 bearbetningssteg istället för över 30 steg som tidigare.

"Diffusionsmodellen är enklare att implementera, vilket leder till högre effektivitet", förklarar medförfattaren Haotian Tang.

Mer specifikt ger kombinationen av en autoregressiv transformatormodell med 700 miljoner parametrar och en lätt diffusionsmodell med 37 miljoner parametrar HART samma prestanda som en diffusionsmodell med upp till 2 miljarder parametrar, men 9 gånger snabbare.

Inledningsvis försökte teamet även integrera diffusionsmodellen i de tidiga stadierna av bildgenereringsprocessen, men detta ackumulerade fel. Det mest effektiva tillvägagångssättet var att låta diffusionsmodellen hantera det sista steget och bara fokusera på de "saknade" delarna av bilden.

Öppnar framtiden för multimedia AI

Teamets nästa steg är att bygga nästa generations visuell-lingvistiska AI-modeller baserade på HART-arkitekturen. Eftersom HART är skalbart och anpassningsbart till ett brett spektrum av datatyper (multimodalt) förväntar de sig att kunna tillämpa det för videogenerering , ljudprediktion och många andra områden.

Denna forskning finansierades av flera organisationer, inklusive MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program och US National Science Foundation. NVIDIA donerade också GPU-infrastruktur för att träna modellen.

(Enligt MIT News)


Källa: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

Lämna en kommentar för att dela dina känslor!

I samma ämne

I samma kategori

Notre Dame-katedralen i Ho Chi Minh-staden är starkt upplyst för att välkomna julen 2025
Hanoi-flickor "klär upp sig" vackert inför julen
Ljusare efter stormen och översvämningen hoppas Tet-krysantemumbyn i Gia Lai att det inte blir några strömavbrott för att rädda växterna.
Huvudstaden för gul aprikos i den centrala regionen drabbades av stora förluster efter dubbla naturkatastrofer

Av samma författare

Arv

Figur

Företag

Dalat kafé ser 300% ökning av kunder tack vare att ägaren spelar roll i "kampsportsfilm"

Aktuella händelser

Politiskt system

Lokal

Produkt

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC