
Astronotun ata bindiği görüntü, iki farklı yapay zeka modelinin birleştirilmesiyle oluşturuldu. Fotoğraf: MIT News
Hız ve kalite artık bir ödünleşme konusu olmadığında.
Yapay zekâ destekli görüntü oluşturma alanında şu anda iki ana yöntem bulunmaktadır:
Difüzyon modelleri, ayrıntılı ve keskin görüntüler oluşturmaya olanak tanır. Bununla birlikte, her pikselden gürültüyü gidermek için düzinelerce işlem adımı gerektirdikleri için çok yavaştırlar ve çok fazla hesaplama kaynağı tüketirler.
Öte yandan, otoregresif modeller, bir görüntünün küçük parçalarını ardışık olarak tahmin edebildikleri için çok daha hızlıdır. Bununla birlikte, genellikle daha az ayrıntılı görüntüler üretirler ve hatalara yatkındırlar.
HART (hibrit otoregresif transformatör), her ikisini de birleştirerek "iki dünyanın en iyisini" sunar. İlk olarak, genel görüntüyü ayrık belirteçlere kodlayarak oluşturmak için otoregresif bir model kullanır. Ardından, kodlama işlemi sırasında kaybolan ayrıntıları eklemek için biraz yaygın bir model daha fazla işlem yapar.
Sonuç olarak, en gelişmiş difüzyon modellerine kıyasla benzer (veya üstün) kalitede görüntüler elde edilirken, işlem dokuz kat daha hızlı gerçekleşiyor ve %31 daha az işlem kaynağı kullanılıyor.
Bu yeni yaklaşım, yüksek hızda yüksek kaliteli görüntüler oluşturmaya yardımcı oluyor.
HART'ın dikkat çekici yeniliklerinden biri, otoregresif modeller kullanılırken ortaya çıkan bilgi kaybı sorununu ele alma biçimidir. Görüntüleri ayrık belirteçlere dönüştürmek süreci hızlandırır, ancak nesne ana hatları, yüz özellikleri, saç, gözler ve ağız gibi önemli ayrıntıların kaybına da yol açar.
HART'ın çözümü, difüzyon modelinin yalnızca artık belirteçleri kullanarak bu ayrıntıları "düzeltmeye" odaklanmasını sağlamaktır. Ve model otoregresyon yoluyla işin çoğunu zaten yaptığı için, difüzyon modelinin eskiden olduğu gibi 30'dan fazla işlem adımı yerine yalnızca 8 işlem adımına ihtiyacı vardır.
Makalenin ortak yazarı Haotian Tang, "Yayılma modeli uygulaması daha kolay ve bu nedenle daha etkili," diye açıkladı.
Özellikle, 700 milyon parametreli bir otoregresif transformatör modeli ile 37 milyon parametreli hafif bir difüzyon modelinin birleşimi, HART'ın 2 milyara kadar parametreye sahip bir difüzyon modeline kıyasla benzer bir performans elde etmesini sağlarken, aynı zamanda dokuz kat daha hızlı çalışmasını mümkün kılıyor.
Araştırma ekibi başlangıçta difüzyon modelini görüntü oluşturma sürecinin erken aşamalarına entegre etmeyi de denedi, ancak bu durum hataların birikmesine yol açtı. En etkili yaklaşım, difüzyon modelinin son adımı halletmesine izin vermek ve yalnızca görüntünün "eksik" kısımlarına odaklanmaktır.
Multimedya yapay zekasının geleceğinin kapılarını aralıyoruz.
Araştırma ekibinin bir sonraki adımı, HART mimarisine dayalı yeni nesil bir dil olan yapay zeka görüntü işleme modelleri oluşturmaktır. HART'ın ölçeklenebilir ve birçok veri türüne (çok modlu) uyarlanabilir olması nedeniyle, video oluşturma, ses tahmini ve diğer birçok alanda uygulanabileceğini öngörüyorlar.
Bu araştırma, MIT-IBM Watson Yapay Zeka Laboratuvarı, MIT-Amazon Bilim Merkezi, MIT Yapay Zeka Donanım Programı ve ABD Ulusal Bilim Vakfı dahil olmak üzere birçok kuruluş tarafından finanse edilmiştir. NVIDIA ayrıca modelin eğitilmesi için GPU altyapısı sağlamıştır.
(MIT Haberlerine göre)
Kaynak: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Yorum (0)