Această imagine a unui astronaut călare a fost creată folosind două tipuri de modele generative de inteligență artificială. Fotografie: MIT News
Când viteza și calitatea nu mai sunt un compromis
În domeniul imagisticii bazate pe inteligență artificială, există în prezent două abordări principale:
Modelele de difuzie permit obținerea de imagini clare și detaliate. Cu toate acestea, sunt lente și costisitoare din punct de vedere computațional, necesitând zeci de etape de procesare pentru a elimina zgomotul din fiecare pixel.
Modelele autoregresive sunt mult mai rapide deoarece prezic secvențial porțiuni mici ale unei imagini. Dar adesea produc imagini cu mai puține detalii și sunt predispuse la erori.
HART (transformator autoregresiv hibrid) combină cele două, oferind „ce e mai bun din ambele lumi”. Mai întâi folosește un model autoregresiv pentru a construi imaginea de ansamblu prin codificarea acesteia în token-uri discrete. Apoi, un model de difuzie ușoară preia controlul pentru a completa token-urile reziduale – informațiile detaliate pierdute în timpul codificării.
Imaginile rezultate au o calitate comparabilă (sau mai bună) cu modelele de difuzie de ultimă generație, dar sunt de 9 ori mai rapide de procesat și utilizează cu 31% mai puține resurse de calcul.
O nouă abordare pentru crearea de imagini de calitate la viteză mare
Una dintre inovațiile notabile ale HART este modul în care rezolvă problema pierderii de informații atunci când se utilizează modele autoregresive. Conversia imaginilor în jetoane discrete accelerează procesul, dar pierde și detalii importante, cum ar fi marginile obiectelor, trăsăturile faciale, părul, ochii, gura etc.
Soluția HART este ca modelul de difuzie să se concentreze doar pe „corectarea” acestor detalii prin intermediul unor elemente reziduale. Și, din moment ce modelul autoregresiv a făcut deja cea mai mare parte a muncii, modelul de difuzie are nevoie doar de 8 etape de procesare în loc de peste 30 de etape ca înainte.
„Modelul de difuzie este mai ușor de implementat, ceea ce duce la o eficiență mai mare”, explică co-autorul Haotian Tang.
Mai exact, combinarea unui model de transformator autoregresiv cu 700 de milioane de parametri și a unui model de difuzie ușoară cu 37 de milioane de parametri oferă HART aceeași performanță ca un model de difuzie cu până la 2 miliarde de parametri, dar de 9 ori mai rapid.
Inițial, echipa a încercat, de asemenea, să integreze modelul de difuzie în etapele incipiente ale procesului de generare a imaginilor, dar acest lucru a acumulat erori. Cea mai eficientă abordare a fost să lase modelul de difuzie să se ocupe de pasul final și să se concentreze doar pe părțile „lipsitoare” ale imaginii.
Deschiderea viitorului inteligenței artificiale multimedia
Următorul pas al echipei este construirea de modele de inteligență artificială vizual-lingvistică de generație următoare, bazate pe arhitectura HART. Întrucât HART este scalabil și adaptabil la o gamă largă de tipuri de date (multimodal), se așteaptă să îl poată aplica în generarea de videoclipuri , predicția audio și multe alte domenii.
Această cercetare a fost finanțată de mai multe organizații, inclusiv MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program și US National Science Foundation. NVIDIA a donat, de asemenea, infrastructură GPU pentru antrenarea modelului.
(Conform MIT News)
Sursă: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Comentariu (0)