Imej angkasawan menunggang kuda ini dicipta menggunakan dua jenis model AI generatif. Foto: MIT News
Apabila kelajuan dan kualiti bukan lagi satu pertukaran
Dalam bidang pengimejan AI, pada masa ini terdapat dua pendekatan utama:
Model resapan membenarkan imej yang tajam dan terperinci. Walau bagaimanapun, ia adalah perlahan dan mahal dari segi pengiraan, memerlukan berpuluh-puluh langkah pemprosesan untuk mengeluarkan bunyi daripada setiap piksel.
Model autoregresif adalah lebih pantas kerana ia meramalkan bahagian kecil imej secara berurutan. Tetapi mereka sering menghasilkan imej dengan kurang terperinci dan terdedah kepada ralat.
HART (pengubah autoregresif hibrid) menggabungkan kedua-duanya, memberikan "yang terbaik dari kedua-dua dunia". Ia mula-mula menggunakan model autoregresif untuk membina imej keseluruhan dengan mengekodkannya ke dalam token diskret. Kemudian, model resapan ringan mengambil alih untuk mengisi token sisa - maklumat terperinci yang hilang semasa pengekodan.
Imej yang terhasil adalah kualiti yang setanding (atau lebih baik) dengan model penyebaran terkini, tetapi 9x lebih pantas untuk diproses dan menggunakan 31% lebih sedikit sumber pengiraan.
Pendekatan baharu untuk mencipta imej berkualiti pada kelajuan tinggi
Salah satu inovasi penting HART ialah bagaimana ia menyelesaikan masalah kehilangan maklumat apabila menggunakan model autoregresif. Menukar imej kepada token diskret mempercepatkan proses, tetapi juga kehilangan butiran penting seperti tepi objek, ciri muka, rambut, mata, mulut, dsb.
Penyelesaian HART ialah memfokuskan model penyebaran hanya pada "menampal" butiran ini melalui token sisa. Dan memandangkan model autoregresif telah melakukan kebanyakan kerja, model resapan hanya memerlukan 8 langkah pemprosesan dan bukannya lebih 30 langkah seperti sebelum ini.
"Model penyebaran lebih mudah untuk dilaksanakan, membawa kepada kecekapan yang lebih tinggi," jelas pengarang bersama Haotian Tang.
Khususnya, gabungan model pengubah autoregresif dengan 700 juta parameter dan model resapan ringan dengan 37 juta parameter memberikan HART prestasi yang sama seperti model resapan dengan sehingga 2 bilion parameter, tetapi 9 kali lebih pantas.
Pada mulanya, pasukan itu juga cuba menyepadukan model resapan ke dalam peringkat awal proses penjanaan imej, tetapi ini mengumpul ralat. Pendekatan yang paling berkesan ialah membiarkan model resapan mengendalikan langkah terakhir dan memfokuskan hanya pada bahagian "hilang" imej.
Membuka masa depan AI multimedia
Langkah seterusnya pasukan adalah untuk membina model AI visual-linguistik generasi akan datang berdasarkan seni bina HART. Memandangkan HART boleh berskala dan boleh disesuaikan dengan pelbagai jenis data (multimodal), mereka menjangkakan dapat menggunakannya pada penjanaan video , ramalan audio dan banyak kawasan lain.
Penyelidikan ini dibiayai oleh beberapa organisasi termasuk MIT-IBM Watson AI Lab, Pusat Sains MIT-Amazon, Program Perkakasan AI MIT dan Yayasan Sains Kebangsaan AS. NVIDIA turut menyumbangkan infrastruktur GPU untuk melatih model tersebut.
(Menurut MIT News)
Sumber: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Komen (0)