Un nuovo strumento basato sull'intelligenza artificiale crea immagini di alta qualità 9 volte più velocemente.

L'immagine dell'astronauta a cavallo è stata creata combinando due tipi di modelli generati dall'intelligenza artificiale. Foto: MIT News

Quando velocità e qualità non sono più in conflitto.

Nel campo della creazione di immagini tramite intelligenza artificiale, attualmente esistono due metodi principali:

I modelli di diffusione consentono la creazione di immagini dettagliate e nitide. Tuttavia, sono molto lenti e consumano molte risorse computazionali perché richiedono decine di passaggi di elaborazione per rimuovere il rumore da ogni pixel.

I modelli autoregressivi, d'altro canto, sono molto più veloci perché possono prevedere piccole parti di un'immagine in modo sequenziale. Tuttavia, spesso producono immagini con meno dettagli e sono soggetti a errori.

HART (Hybrid Autoregressive Transformer) combina entrambi gli approcci, offrendo "il meglio di entrambi i mondi". In primo luogo, utilizza un modello autoregressivo per costruire l'immagine complessiva codificandola in token discreti. Successivamente, un modello leggermente diffuso elabora ulteriormente i dati per aggiungere i token residui, ovvero i dettagli persi durante il processo di codifica.

Il risultato sono immagini di qualità paragonabile (o superiore) a quelle ottenute con i modelli di diffusione più avanzati, ma l'elaborazione è nove volte più veloce e richiede il 31% in meno di risorse computazionali.

Questo nuovo approccio contribuisce a creare immagini di alta qualità ad alta velocità.

Una delle innovazioni più significative di HART è il modo in cui affronta il problema della perdita di informazioni che si verifica quando si utilizzano modelli autoregressivi. La conversione delle immagini in token discreti velocizza il processo, ma comporta anche la perdita di dettagli importanti come i contorni degli oggetti, i tratti del viso, i capelli, gli occhi e la bocca.

La soluzione di HART consiste nel far sì che il modello di diffusione si concentri esclusivamente sul "correggere" questi dettagli utilizzando token residui. E poiché il modello ha già svolto la maggior parte del lavoro tramite autoregressione, il modello di diffusione necessita solo di 8 passaggi di elaborazione anziché degli oltre 30 di prima.

"Il modello di diffusione è più facile da implementare e quindi più efficace", ha spiegato il coautore Haotian Tang.

Nello specifico, la combinazione di un modello autoregressivo a trasformazione con 700 milioni di parametri e un modello di diffusione lieve con 37 milioni di parametri consente a HART di raggiungere prestazioni paragonabili a quelle di un modello di diffusione con un massimo di 2 miliardi di parametri, ma nove volte più veloce.

Inizialmente, il team di ricerca ha anche provato a integrare il modello di diffusione nelle prime fasi del processo di creazione dell'immagine, ma ciò ha portato a un accumulo di errori. L'approccio più efficace è quello di lasciare che il modello di diffusione gestisca la fase finale e concentrarsi solo sulle parti "mancanti" dell'immagine.

Svelare il futuro dell'intelligenza artificiale multimediale.

Il prossimo passo del team di ricerca è la creazione di modelli di visione basati sull'intelligenza artificiale, un linguaggio di nuova generazione basato sull'architettura HART. Poiché HART è scalabile e adattabile a molti tipi di dati (multimodale), si prevede di poterlo applicare alla creazione di video , alla previsione audio e a molti altri campi.

Questa ricerca è stata finanziata da diverse organizzazioni, tra cui il MIT-IBM Watson AI Lab, il MIT-Amazon Science Center, il MIT AI Hardware Program e la National Science Foundation degli Stati Uniti. NVIDIA ha inoltre fornito l'infrastruttura GPU per l'addestramento del modello.

(Secondo MIT News)

Fonte: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html