Vietnam.vn - Nền tảng quảng bá Việt Nam

Nytt AI-verktøy lager bilder av høy kvalitet, 9 ganger raskere

Forskere fra MIT og NVIDIA har lykkes med å utvikle HART – et verktøy som lager bilder av høy kvalitet med en usedvanlig rask hastighet, samtidig som det bruker så få ressurser at det kan kjøres direkte på en bærbar PC eller smarttelefon.

VietNamNetVietNamNet26/03/2025

bilde 1.jpg

Dette bildet av en astronaut som rir på en hest ble laget ved hjelp av to typer generative AI-modeller. Foto: MIT News


Når hastighet og kvalitet ikke lenger er en avveining

Innen AI-avbildning finnes det for tiden to hovedtilnærminger:

Diffusjonsmodeller gir skarpe og detaljerte bilder. De er imidlertid trege og beregningsmessig dyre, og krever dusinvis av behandlingstrinn for å fjerne støy fra hver piksel.

Autoregressive modeller er mye raskere fordi de forutsier små deler av et bilde sekvensielt. Men de produserer ofte bilder med færre detaljer og er utsatt for feil.

HART (hybrid autoregressiv transformator) kombinerer de to og gir «det beste fra begge verdener». Først bruker den en autoregressiv modell for å konstruere det overordnede bildet ved å kode det inn i diskrete tokens. Deretter tar en lett diffusjonsmodell over for å fylle ut de resterende tokensene – den detaljerte informasjonen som går tapt under kodingen.

De resulterende bildene er av sammenlignbar (eller bedre) kvalitet som toppmoderne diffusjonsmodeller, men er 9 ganger raskere å behandle og bruker 31 % færre beregningsressurser.

Ny tilnærming til å lage kvalitetsbilder i høy hastighet

En av de bemerkelsesverdige nyvinningene ved HART er hvordan den løser problemet med informasjonstap ved bruk av autoregressive modeller. Konvertering av bilder til diskrete tokens fremskynder prosessen, men mister også viktige detaljer som objektkanter, ansiktstrekk, hår, øyne, munner osv.

HARTs løsning er å la diffusjonsmodellen fokusere kun på å «lappe opp» disse detaljene gjennom resttokens. Og siden den autoregressive modellen allerede har gjort mesteparten av arbeidet, trenger diffusjonsmodellen bare 8 behandlingstrinn i stedet for over 30 trinn som før.

«Diffusjonsmodellen er enklere å implementere, noe som fører til høyere effektivitet», forklarer medforfatter Haotian Tang.

Mer spesifikt gir kombinasjonen av en autoregressiv transformatormodell med 700 millioner parametere og en lett diffusjonsmodell med 37 millioner parametere HART samme ytelse som en diffusjonsmodell med opptil 2 milliarder parametere, men 9 ganger raskere.

I starten prøvde teamet også å integrere diffusjonsmodellen i de tidlige stadiene av bildegenereringsprosessen, men dette akkumulerte feil. Den mest effektive tilnærmingen var å la diffusjonsmodellen håndtere det siste trinnet og kun fokusere på de «manglende» delene av bildet.

Åpner fremtiden for multimedia AI

Teamets neste steg er å bygge neste generasjons visuell-lingvistiske AI-modeller basert på HART-arkitekturen. Siden HART er skalerbar og tilpasningsdyktig til et bredt spekter av datatyper (multimodal), forventer de å kunne bruke den til videogenerering , lydprediksjon og mange andre områder.

Denne forskningen ble finansiert av flere organisasjoner, inkludert MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program og US National Science Foundation. NVIDIA donerte også GPU-infrastruktur for å trene modellen.

(Ifølge MIT News)


Kilde: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

Legg igjen en kommentar for å dele følelsene dine!

I samme emne

I samme kategori

Notre Dame-katedralen i Ho Chi Minh-byen er sterkt opplyst for å ønske julen 2025 velkommen
Hanoi-jenter «kler seg» vakkert ut til jul
Lysere etter stormen og flommen håper Tet-krysantemumlandsbyen i Gia Lai at det ikke blir strømbrudd for å redde plantene.
Hovedstaden for gul aprikos i den sentrale regionen led store tap etter doble naturkatastrofer

Av samme forfatter

Arv

Figur

Forretninger

Dalat kaffebar ser 300 % økning i kunder fordi eieren spiller en rolle i en «kampsportfilm»

Aktuelle hendelser

Det politiske systemet

Lokalt

Produkt

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC