Sora gibi metinden videoya yapay zekalar

Sora (OpenAI)

Sora duyurulan en yeni isim olmasına rağmen en çok ses getiren uygulama oldu. Bunun bir nedeni ChatGPT'nin ünlü geliştiricisi OpenAI'nin bir ürünü olması, diğer nedeni ise programın sadece metin komutlarıyla oluşturduğu videoların kalitesi.

Şirketin ChatGPT ile elde ettiği başarı, yapay zekasına dil konusunda derin bir anlayış kazandırıyor. Sora'nın yeteneklerini gösteren klipler, karakterlerin insan çekimli bir film kadar gerçekçi bir şekilde hareket edip kendilerini ifade etmelerini gösteriyor.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Sora'nın metin komutlarıyla oluşturduğu "gerçeküstü" video

Ancak güvenlik nedeniyle Sora henüz herkesin kullanımına açık değil. OpenAI, özellikle yapay zeka kullanıcılarının kullanıcı kimliğine bürünme veya suç işleme gibi kötü niyetli amaçlarla kullanılmasının giderek artması göz önüne alındığında, genel kullanıma sunmadan önce dikkatli önlemler alacak.

Lumière (Google)

Lumiere, STUNet (Uzay-Zaman-U-Ağ) yapı yayılım modeline dayalı olarak metin girdisinden video üretebilen bir Google ürünüdür. Lumiere, durağan kareleri birleştirmek yerine, videodaki ayrıntıları (uzamsal kısım) belirler, bunların nasıl hareket ettiğini ve aynı anda nasıl değiştiğini (zamansal kısım) izler ve böylece sürecin sorunsuz ilerlemesine yardımcı olur.

Sora gibi Lumiere de henüz kamuoyuna sunulmadı. Şirket, bu modeli ancak Ocak 2024'ün sonlarında, Bard ile yeni senkronize edilen büyük dil modeli Gemini'nin piyasaya sürülmesinden sonra tanıttı.

VideoPoet (Google)

Bu büyük dil modeli (LLM), Google Arama tarafından 2023 yılında geliştirilen devasa bir video, fotoğraf, ses ve metin deposundan eğitilmiştir. VideoPoet, metin, fotoğraf, video gibi girdi kaynaklarından çeşitli görevler gerçekleştirebilir; videolar oluşturabilir, içerikleri vurgulayabilir, videoları sese dönüştürebilir, hareketsiz görüntüleri animasyonlara dönüştürebilir...

VideoPoet'in orijinal fikri, herhangi bir otoregresif dil modelini bir video üretim sistemine dönüştürme ihtiyacından doğmuştur. Mevcut otoregresif dil modelleri, metin ve programlama kodunu insanlar gibi işleyebilir, ancak konu video olduğunda zorluk çeker. VideoPoet, herhangi bir formattaki girdiyi anlayabileceği bir dile çevirmek için belirteçlemeyi kullanarak bu sorunu çözer.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Metinden video oluşturma araçları çoğunlukla sınırlarını zorluyor

Emu Videosu (Meta)

Google ve OpenAI'nin yanı sıra Meta da yapay zeka geliştirme alanında faaliyet gösteren büyük teknoloji şirketlerinden biri. Facebook'un sahibi olan şirket, görüntüleri metne dönüştürüp ardından klipler oluşturmak için veri olarak kullanabilen Emu Video adlı bir video yapım yapay zekası da geliştirdi.

Emu Video, beta test kullanıcılarından olumlu yorumlar alıyor ve kullanıcıların %81'i Imagen Video'yu (Google) tercih ediyor. %90'dan fazlası, Meta'nın modelini PYOCO'yu (Nvidia) tercih ediyor; bu oran, Meta'nın Make-A-Video'sundan (%96) bile daha iyi.

CogVideo (Tsinghua Üniversitesi, Çin)

Yukarıdaki modellerin tamamı dünyanın önde gelen teknoloji şirketlerinin ürünü olan modellerin aksine, CogVideo, Çin ve Asya'nın en prestijli okullarından biri olan Tsinghua Üniversitesi'nden bir araştırma ekibi tarafından geliştirilen bir yapay zeka programıdır. Program, önceden eğitilmiş bir metinden resme dönüştürme modeli olan CogView2'ye dayanmaktadır.

CogVideo'yu test eden bilgisayar sanatı uzmanı Glenn Marshall, "yönetmenler işlerini kaybedebilir" dedi. CogVideo'nun yardımıyla yarattığı The Crow adlı klibi büyük beğeni topladı ve British Academy Film Ödülü'ne (BAFTA) aday gösterildi.

[reklam_2]
Kaynak bağlantısı