Gambar astronot menunggang kuda ini dibuat menggunakan dua jenis model AI generatif. Foto: MIT News
Ketika kecepatan dan kualitas tidak lagi menjadi pilihan
Di bidang pencitraan AI, saat ini ada dua pendekatan utama:
Model difusi memungkinkan terciptanya gambar yang tajam dan detail. Namun, model ini lambat dan membutuhkan komputasi yang mahal, membutuhkan puluhan langkah pemrosesan untuk menghilangkan noise dari setiap piksel.
Model autoregresif jauh lebih cepat karena memprediksi bagian-bagian kecil gambar secara berurutan. Namun, model ini seringkali menghasilkan gambar dengan detail yang lebih rendah dan rentan terhadap kesalahan.
HART (transformator autoregresif hibrida) menggabungkan keduanya, memberikan "yang terbaik dari kedua dunia". Pertama-tama, HART menggunakan model autoregresif untuk membangun citra keseluruhan dengan mengodekannya ke dalam token-token diskret. Kemudian, model difusi ringan mengambil alih untuk mengisi token-token residual – informasi detail yang hilang selama pengodean.
Gambar yang dihasilkan memiliki kualitas yang sebanding (atau lebih baik) dengan model difusi canggih, tetapi 9x lebih cepat diproses dan menggunakan 31% lebih sedikit sumber daya komputasi.
Pendekatan baru untuk membuat gambar berkualitas dengan kecepatan tinggi
Salah satu inovasi HART yang menonjol adalah bagaimana ia memecahkan masalah hilangnya informasi saat menggunakan model autoregresif. Mengonversi gambar menjadi token diskrit mempercepat proses, tetapi juga menghilangkan detail penting seperti tepi objek, fitur wajah, rambut, mata, mulut, dll.
Solusi HART adalah memfokuskan model difusi hanya pada "menambal" detail-detail ini melalui token residual. Dan karena model autoregresif telah melakukan sebagian besar pekerjaan, model difusi hanya membutuhkan 8 langkah pemrosesan, bukan lebih dari 30 langkah seperti sebelumnya.
“Model difusi lebih mudah diimplementasikan, sehingga menghasilkan efisiensi yang lebih tinggi,” jelas rekan penulis Haotian Tang.
Secara khusus, kombinasi model transformator autoregresif dengan 700 juta parameter dan model difusi ringan dengan 37 juta parameter memberi HART kinerja yang sama dengan model difusi dengan hingga 2 miliar parameter, tetapi 9 kali lebih cepat.
Awalnya, tim juga mencoba mengintegrasikan model difusi ke tahap awal proses pembuatan gambar, tetapi hal ini justru menimbulkan kesalahan. Pendekatan yang paling efektif adalah membiarkan model difusi menangani langkah terakhir dan hanya berfokus pada bagian gambar yang "hilang".
Membuka masa depan AI multimedia
Langkah tim selanjutnya adalah membangun model AI visual-linguistik generasi mendatang berdasarkan arsitektur HART. Karena HART bersifat skalabel dan adaptif terhadap berbagai jenis data (multimodal), mereka berharap dapat menerapkannya pada pembuatan video , prediksi audio, dan banyak bidang lainnya.
Penelitian ini didanai oleh beberapa organisasi, termasuk MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program, dan US National Science Foundation. NVIDIA juga menyumbangkan infrastruktur GPU untuk melatih model tersebut.
(Menurut Berita MIT)
Sumber: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Komentar (0)