At sırtında bir astronotun bu görüntüsü, iki tür üretken yapay zeka modeli kullanılarak oluşturuldu. Fotoğraf: MIT News
Hız ve kalite artık bir tercih olmaktan çıktığında
Yapay zeka görüntüleme alanında şu anda iki temel yaklaşım bulunmaktadır:
Difüzyon modelleri keskin ve ayrıntılı görüntüler sağlar. Ancak, yavaştır ve hesaplama açısından maliyetlidir; her pikseldeki gürültüyü gidermek için onlarca işlem adımı gerektirir.
Otoregresif modeller, bir görüntünün küçük bölümlerini sırayla tahmin ettikleri için çok daha hızlıdır. Ancak genellikle daha az ayrıntılı görüntüler üretirler ve hataya eğilimlidirler.
HART (hibrit otoregresif dönüştürücü), ikisini birleştirerek "her iki dünyanın da en iyisini" sunar. İlk olarak, genel görüntüyü ayrık belirteçlere kodlayarak oluşturmak için bir otoregresif model kullanır. Ardından, kodlama sırasında kaybolan ayrıntılı bilgiler olan kalan belirteçleri doldurmak için hafif bir difüzyon modeli devreye girer.
Elde edilen görüntüler, en son teknoloji difüzyon modelleriyle karşılaştırılabilir (veya daha iyi) kalitededir, ancak işlenmesi 9 kat daha hızlıdır ve %31 daha az hesaplama kaynağı kullanır.
Yüksek hızda kaliteli görüntüler oluşturmaya yönelik yeni yaklaşım
HART'ın dikkat çekici yeniliklerinden biri, otoregresif modeller kullanıldığında bilgi kaybı sorununu çözmesidir. Görüntüleri ayrık belirteçlere dönüştürmek süreci hızlandırır, ancak nesne kenarları, yüz hatları, saçlar, gözler, ağızlar vb. gibi önemli ayrıntıların kaybolmasına neden olur.
HART'ın çözümü, difüzyon modelinin yalnızca bu ayrıntıları kalıntı tokenler aracılığıyla "düzeltmeye" odaklanmasını sağlamaktır. Otoregresif model işin çoğunu zaten hallettiğinden, difüzyon modelinin daha önce olduğu gibi 30'dan fazla adım yerine yalnızca 8 işlem adımına ihtiyacı vardır.
Ortak yazar Haotian Tang, "Yayılma modelinin uygulanması daha kolaydır ve bu da daha yüksek verimliliğe yol açar" diye açıklıyor.
Özellikle 700 milyon parametreye sahip bir otoregresif transformatör modeli ile 37 milyon parametreye sahip hafif bir difüzyon modelinin birleşimi, HART'a 2 milyara kadar parametreye sahip bir difüzyon modeliyle aynı performansı, ancak 9 kat daha hızlı sağlıyor.
Ekip başlangıçta, difüzyon modelini görüntü oluşturma sürecinin erken aşamalarına entegre etmeyi de denedi, ancak bu da hatalara yol açtı. En etkili yaklaşım, son adımı difüzyon modelinin üstlenmesine izin vermek ve yalnızca görüntünün "eksik" kısımlarına odaklanmaktı.
Multimedya yapay zekasının geleceği açılıyor
Ekibin bir sonraki adımı, HART mimarisine dayalı yeni nesil görsel-dilsel yapay zeka modelleri oluşturmak. HART ölçeklenebilir ve çok çeşitli veri türlerine (çok modlu) uyarlanabilir olduğundan, video üretimi, ses tahmini ve diğer birçok alanda uygulanabileceğini düşünüyorlar.
Bu araştırma, MIT-IBM Watson AI Lab, MIT-Amazon Bilim Merkezi, MIT AI Donanım Programı ve ABD Ulusal Bilim Vakfı gibi çeşitli kuruluşlar tarafından finanse edildi. NVIDIA ayrıca modeli eğitmek için GPU altyapısı bağışladı.
(MIT Haberlerine göre)
Kaynak: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Yorum (0)