Alat AI baru menciptakan gambar berkualitas tinggi 9 kali lebih cepat.

Gambar astronot yang menunggang kuda tersebut dibuat dengan menggabungkan dua jenis model yang dihasilkan oleh AI. Foto: MIT News

Ketika kecepatan dan kualitas bukan lagi hal yang saling bertentangan.

Dalam bidang pembuatan gambar berbasis AI, saat ini terdapat dua metode utama:

Model difusi memungkinkan pembuatan gambar yang detail dan tajam. Namun, model ini sangat lambat dan menghabiskan banyak sumber daya komputasi karena membutuhkan puluhan langkah pemrosesan untuk menghilangkan noise dari setiap piksel.

Di sisi lain, model autoregresif jauh lebih cepat karena dapat memprediksi bagian-bagian kecil dari sebuah gambar secara berurutan. Namun, model ini sering menghasilkan gambar dengan detail yang lebih sedikit dan rentan terhadap kesalahan.

HART (hybrid autoregressive transformer) menggabungkan keduanya, menawarkan "yang terbaik dari kedua dunia." Pertama, ia menggunakan model autoregresif untuk membangun citra keseluruhan dengan mengkodekannya menjadi token diskrit. Kemudian, model yang sedikit difus memproses lebih lanjut untuk menambahkan token residual—detail yang hilang selama proses pengkodean.

Hasilnya adalah gambar dengan kualitas yang sebanding (atau lebih unggul) dibandingkan model difusi tercanggih, tetapi pemrosesannya sembilan kali lebih cepat dan menggunakan 31% lebih sedikit sumber daya komputasi.

Pendekatan baru ini membantu menciptakan gambar berkualitas tinggi dengan kecepatan tinggi.

Salah satu inovasi penting dari HART adalah bagaimana ia mengatasi masalah hilangnya informasi saat menggunakan model autoregresif. Mengonversi gambar menjadi token diskrit mempercepat proses, tetapi juga mengakibatkan hilangnya detail penting seperti garis luar objek, fitur wajah, rambut, mata, dan mulut.

Solusi HART adalah membuat model difusi hanya fokus pada "menambal" detail-detail ini menggunakan token residual. Dan karena model tersebut telah melakukan sebagian besar pekerjaan melalui autoregresi, model difusi hanya membutuhkan 8 langkah pemrosesan, bukan lebih dari 30 seperti sebelumnya.

"Model difusi lebih mudah diimplementasikan dan karenanya lebih efektif," jelas Haotian Tang, salah satu penulisnya.

Secara spesifik, kombinasi model transformator autoregresif dengan 700 juta parameter dan model difusi ringan dengan 37 juta parameter memungkinkan HART mencapai kinerja yang setara dengan model difusi dengan hingga 2 miliar parameter, tetapi sembilan kali lebih cepat.

Awalnya, tim peneliti juga mencoba mengintegrasikan model difusi ke dalam tahap awal proses pembuatan gambar, tetapi hal ini menyebabkan akumulasi kesalahan. Pendekatan yang paling efektif adalah membiarkan model difusi menangani langkah terakhir dan hanya fokus pada bagian gambar yang "hilang".

Membuka potensi masa depan AI multimedia.

Langkah selanjutnya tim peneliti adalah membangun model visi AI – bahasa generasi berikutnya yang berbasis pada arsitektur HART. Karena HART dapat diskalakan dan disesuaikan dengan berbagai jenis data (multimodal), mereka berharap dapat menerapkannya pada pembuatan video , prediksi audio, dan banyak bidang lainnya.

Penelitian ini didanai oleh berbagai organisasi, termasuk MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program, dan National Science Foundation AS. NVIDIA juga menyediakan infrastruktur GPU untuk melatih model tersebut.

(Menurut MIT News)

Sumber: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html