Dette bildet av en astronaut som rir på en hest ble laget ved hjelp av to typer generative AI-modeller. Foto: MIT News
Når hastighet og kvalitet ikke lenger er en avveining
Innen AI-avbildning finnes det for tiden to hovedtilnærminger:
Diffusjonsmodeller gir skarpe og detaljerte bilder. De er imidlertid trege og beregningsmessig dyre, og krever dusinvis av behandlingstrinn for å fjerne støy fra hver piksel.
Autoregressive modeller er mye raskere fordi de forutsier små deler av et bilde sekvensielt. Men de produserer ofte bilder med færre detaljer og er utsatt for feil.
HART (hybrid autoregressiv transformator) kombinerer de to og gir «det beste fra begge verdener». Først bruker den en autoregressiv modell for å konstruere det overordnede bildet ved å kode det inn i diskrete tokens. Deretter tar en lett diffusjonsmodell over for å fylle ut de resterende tokensene – den detaljerte informasjonen som går tapt under kodingen.
De resulterende bildene er av sammenlignbar (eller bedre) kvalitet som toppmoderne diffusjonsmodeller, men er 9 ganger raskere å behandle og bruker 31 % færre beregningsressurser.
Ny tilnærming til å lage kvalitetsbilder i høy hastighet
En av de bemerkelsesverdige nyvinningene ved HART er hvordan den løser problemet med informasjonstap ved bruk av autoregressive modeller. Konvertering av bilder til diskrete tokens fremskynder prosessen, men mister også viktige detaljer som objektkanter, ansiktstrekk, hår, øyne, munner osv.
HARTs løsning er å la diffusjonsmodellen fokusere kun på å «lappe opp» disse detaljene gjennom resttokens. Og siden den autoregressive modellen allerede har gjort mesteparten av arbeidet, trenger diffusjonsmodellen bare 8 behandlingstrinn i stedet for over 30 trinn som før.
«Diffusjonsmodellen er enklere å implementere, noe som fører til høyere effektivitet», forklarer medforfatter Haotian Tang.
Mer spesifikt gir kombinasjonen av en autoregressiv transformatormodell med 700 millioner parametere og en lett diffusjonsmodell med 37 millioner parametere HART samme ytelse som en diffusjonsmodell med opptil 2 milliarder parametere, men 9 ganger raskere.
I starten prøvde teamet også å integrere diffusjonsmodellen i de tidlige stadiene av bildegenereringsprosessen, men dette akkumulerte feil. Den mest effektive tilnærmingen var å la diffusjonsmodellen håndtere det siste trinnet og kun fokusere på de «manglende» delene av bildet.
Åpner fremtiden for multimedia AI
Teamets neste steg er å bygge neste generasjons visuell-lingvistiske AI-modeller basert på HART-arkitekturen. Siden HART er skalerbar og tilpasningsdyktig til et bredt spekter av datatyper (multimodal), forventer de å kunne bruke den til videogenerering , lydprediksjon og mange andre områder.
Denne forskningen ble finansiert av flere organisasjoner, inkludert MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program og US National Science Foundation. NVIDIA donerte også GPU-infrastruktur for å trene modellen.
(Ifølge MIT News)
Kilde: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Kommentar (0)