Noul instrument de inteligență artificială creează imagini de înaltă calitate de 9 ori mai rapid.

Imaginea astronautului călare a fost creată prin combinarea a două tipuri de modele generate de inteligența artificială. Fotografie: MIT News

Când viteza și calitatea nu mai sunt un compromis.

În domeniul creării de imagini bazate pe inteligență artificială, există în prezent două metode principale:

Modelele de difuzie permit crearea unor imagini detaliate și clare. Cu toate acestea, sunt foarte lente și consumă o mulțime de resurse de calcul, deoarece necesită zeci de pași de procesare pentru a elimina zgomotul din fiecare pixel.

Modelele autoregresive, pe de altă parte, sunt mult mai rapide deoarece pot prezice secvențial porțiuni mici ale unei imagini. Cu toate acestea, ele produc adesea imagini cu mai puține detalii și sunt predispuse la erori.

HART (transformator autoregresiv hibrid) combină ambele, oferind „ce e mai bun din ambele lumi”. Mai întâi, folosește un model autoregresiv pentru a construi imaginea de ansamblu prin codificarea acesteia în jetoane discrete. Apoi, un model ușor difuz procesează în continuare pentru a adăuga jetoane reziduale - detalii pierdute în timpul procesului de codificare.

Rezultatul este reprezentat de imagini de o calitate comparabilă (sau superioară) cu cele mai avansate modele de difuzie, dar procesarea este de nouă ori mai rapidă și utilizează cu 31% mai puține resurse de calcul.

Această nouă abordare ajută la crearea de imagini de înaltă calitate la viteză mare.

Una dintre inovațiile notabile ale HART este modul în care abordează problema pierderii de informații atunci când se utilizează modele autoregresive. Conversia imaginilor în jetoane discrete accelerează procesul, dar duce și la pierderea unor detalii importante, cum ar fi contururile obiectelor, trăsăturile faciale, părul, ochii și gura.

Soluția HART este ca modelul de difuzie să se concentreze exclusiv pe „corectarea” acestor detalii folosind token-uri reziduale. Și pentru că modelul a făcut deja cea mai mare parte a muncii prin autoregresie, modelul de difuzie are nevoie doar de 8 etape de procesare în loc de peste 30 ca înainte.

„Modelul de difuzie este mai ușor de implementat și, prin urmare, mai eficient”, a explicat co-autorul Haotian Tang.

Mai exact, combinarea unui model de transformator autoregresiv cu 700 de milioane de parametri și a unui model de difuzie ușoară cu 37 de milioane de parametri permite HART să atingă performanțe comparabile cu un model de difuzie cu până la 2 miliarde de parametri, dar de nouă ori mai rapid.

Inițial, echipa de cercetare a încercat să integreze modelul de difuzie în etapele incipiente ale procesului de creare a imaginii, dar acest lucru a dus la o acumulare de erori. Cea mai eficientă abordare este de a lăsa modelul de difuzie să se ocupe de pasul final și de a se concentra doar pe părțile „lipsitoare” ale imaginii.

Deblocând viitorul inteligenței artificiale multimedia.

Următorul pas al echipei de cercetare este construirea de modele de viziune bazate pe inteligență artificială – un limbaj de generație următoare bazat pe arhitectura HART. Deoarece HART este scalabil și adaptabil la multe tipuri de date (multimodale), se așteaptă să îl poată aplica în crearea de videoclipuri , predicția audio și multe alte domenii.

Această cercetare a fost finanțată de mai multe organizații, inclusiv MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program și U.S. National Science Foundation. NVIDIA a furnizat, de asemenea, infrastructura GPU pentru antrenarea modelului.

(Conform MIT News)

Sursă: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html