Vietnam.vn - Nền tảng quảng bá Việt Nam

Nytt AI-verktøy lager bilder av høy kvalitet ni ganger raskere.

Forskere fra MIT og NVIDIA har lykkes med å utvikle HART – et verktøy for å lage bilder av høy kvalitet med eksepsjonelt høye hastigheter, samtidig som det bruker så lite ressurser at det kan kjøres direkte på bærbare datamaskiner eller smarttelefoner.

VietNamNetVietNamNet26/03/2025

anh1.jpg

Bildet av astronauten som rir på en hest ble laget ved å kombinere to typer AI-genererte modeller. Foto: MIT News


Når hastighet og kvalitet ikke lenger er en avveining.

Innen AI-drevet bildeproduksjon finnes det for tiden to hovedmetoder:

Diffusjonsmodeller tillater opprettelse av detaljerte, skarpe bilder. De er imidlertid svært trege og bruker mye beregningsressurser fordi de krever dusinvis av behandlingstrinn for å fjerne støy fra hver piksel.

Autoregressive modeller er derimot mye raskere fordi de kan forutsi små deler av et bilde sekvensielt. De produserer imidlertid ofte bilder med færre detaljer og er utsatt for feil.

HART (hybrid autoregressiv transformator) kombinerer begge deler og tilbyr «det beste fra begge verdener». Først bruker den en autoregressiv modell for å konstruere det overordnede bildet ved å kode det inn i diskrete tokens. Deretter behandler en litt diffus modell det videre for å legge til resttokens – detaljer som går tapt under kodingsprosessen.

Resultatet er bilder av sammenlignbar (eller overlegen) kvalitet som de mest avanserte diffusjonsmodellene, men behandlingen er ni ganger raskere og bruker 31 % mindre dataressurser.

Denne nye tilnærmingen bidrar til å lage bilder av høy kvalitet i høy hastighet.

En av de bemerkelsesverdige nyvinningene ved HART er hvordan den adresserer problemet med informasjonstap ved bruk av autoregressive modeller. Konvertering av bilder til diskrete tokens fremskynder prosessen, men resulterer også i tap av viktige detaljer som objektkonturer, ansiktstrekk, hår, øyne og munn.

HARTs løsning er å la diffusjonsmodellen fokusere utelukkende på å «lappe opp» disse detaljene ved hjelp av resttokens. Og fordi modellen allerede har gjort mesteparten av arbeidet gjennom autoregresjon, trenger diffusjonsmodellen bare 8 behandlingstrinn i stedet for over 30 som før.

«Diffusjonsmodellen er enklere å implementere og derfor mer effektiv», forklarte medforfatter Haotian Tang.

Mer spesifikt lar kombinasjonen av en autoregressiv transformatormodell med 700 millioner parametere og en mild diffusjonsmodell med 37 millioner parametere HART oppnå ytelse som er sammenlignbar med en diffusjonsmodell med opptil 2 milliarder parametere, men ni ganger raskere.

I starten prøvde forskerteamet også å integrere diffusjonsmodellen i de tidlige stadiene av bildeproduksjonsprosessen, men dette førte til en opphopning av feil. Den mest effektive tilnærmingen er å la diffusjonsmodellen håndtere det siste trinnet og kun fokusere på de «manglende» delene av bildet.

Låser opp fremtiden for multimedia AI.

Forskerteamets neste steg er å bygge AI-visjonsmodeller – et neste generasjons språk basert på HART-arkitekturen. Fordi HART er skalerbart og tilpasningsdyktig til mange typer data (multimodalt), forventer de å kunne bruke det til videoproduksjon , lydprediksjon og mange andre felt.

Denne forskningen ble finansiert av flere organisasjoner, inkludert MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program og den amerikanske National Science Foundation. NVIDIA leverte også GPU-infrastruktur for trening av modellen.

(Ifølge MIT News)


Kilde: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

Legg igjen en kommentar for å dele følelsene dine!

I samme emne

I samme kategori

Av samme forfatter

Arv

Figur

Bedrifter

Aktuelle saker

Det politiske systemet

Lokalt

Produkt

Happy Vietnam
Lykke ved havnen

Lykke ved havnen

Stille høylandet

Stille høylandet

Søster Hai Quan Ho

Søster Hai Quan Ho