Vietnam.vn - Nền tảng quảng bá Việt Nam

Nytt AI-verktyg skapar högkvalitativa bilder 9 gånger snabbare.

Forskare från MIT och NVIDIA har framgångsrikt utvecklat HART – ett verktyg för att skapa högkvalitativa bilder med exceptionellt höga hastigheter, samtidigt som det förbrukar så lite resurser att det kan köras direkt på bärbara datorer eller smartphones.

VietNamNetVietNamNet26/03/2025

anh1.jpg

Bilden av astronauten som rider på en häst skapades genom att kombinera två typer av AI-genererade modeller. Foto: MIT News


När hastighet och kvalitet inte längre är en avvägning.

Inom området AI-driven bildskapande finns det för närvarande två huvudmetoder:

Diffusionsmodeller möjliggör skapandet av detaljerade, skarpa bilder. De är dock mycket långsamma och förbrukar mycket beräkningsresurser eftersom de kräver dussintals bearbetningssteg för att ta bort brus från varje pixel.

Autoregressiva modeller är å andra sidan mycket snabbare eftersom de kan förutsäga små delar av en bild sekventiellt. De producerar dock ofta bilder med mindre detaljer och är benägna att orsaka fel.

HART (hybrid autoregressiv transformator) kombinerar båda och erbjuder "det bästa av två världar". Först använder den en autoregressiv modell för att konstruera den övergripande bilden genom att koda den till diskreta tokens. Sedan bearbetar en något diffus modell ytterligare för att lägga till resttokens – detaljer som förlorats under kodningsprocessen.

Resultatet är bilder av jämförbar (eller överlägsen) kvalitet med de mest avancerade diffusionsmodellerna, men bearbetningen är nio gånger snabbare och använder 31 % mindre datorresurser.

Denna nya metod hjälper till att skapa högkvalitativa bilder i hög hastighet.

En av de anmärkningsvärda innovationerna i HART är hur det hanterar problemet med informationsförlust vid användning av autoregressiva modeller. Att konvertera bilder till diskreta tokens påskyndar processen, men resulterar också i förlust av viktiga detaljer som objektkonturer, ansiktsdrag, hår, ögon och mun.

HARTs lösning är att diffusionsmodellen enbart fokuserar på att "lappa ihop" dessa detaljer med hjälp av resterande tokens. Och eftersom modellen redan har gjort det mesta av arbetet genom autoregression behöver diffusionsmodellen bara 8 bearbetningssteg istället för över 30 som tidigare.

"Diffusionsmodellen är enklare att implementera och därför mer effektiv", förklarade medförfattaren Haotian Tang.

Mer specifikt gör kombinationen av en autoregressiv transformatormodell med 700 miljoner parametrar och en mild diffusionsmodell med 37 miljoner parametrar att HART kan uppnå prestanda jämförbar med en diffusionsmodell med upp till 2 miljarder parametrar, men nio gånger snabbare.

Inledningsvis försökte forskargruppen även integrera diffusionsmodellen i de tidiga stadierna av bildskapandeprocessen, men detta ledde till en ansamling av fel. Det mest effektiva tillvägagångssättet är att låta diffusionsmodellen hantera det sista steget och bara fokusera på de "saknade" delarna av bilden.

Låser upp framtiden för multimedia-AI.

Forskargruppens nästa steg är att bygga AI-visionsmodeller – nästa generations språk baserat på HART-arkitekturen. Eftersom HART är skalbart och anpassningsbart till många typer av data (multimodalt) förväntar de sig att kunna tillämpa det för videoskapande , ljudprediktion och många andra områden.

Denna forskning finansierades av flera organisationer, inklusive MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program och den amerikanska National Science Foundation. NVIDIA tillhandahöll också GPU-infrastruktur för att träna modellen.

(Enligt MIT News)


Källa: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

Lämna en kommentar för att dela dina känslor!

I samma ämne

I samma kategori

Av samma författare

Arv

Figur

Företag

Aktuella frågor

Politiskt system

Lokal

Produkt

Happy Vietnam
Khanh Hung-pagoden, Hai Phong

Khanh Hung-pagoden, Hai Phong

Att bevara tidens skatter.

Att bevara tidens skatter.

Morgondimma vid Thong Hue

Morgondimma vid Thong Hue