Umělé inteligence pro převod textu na video, jako je Sora

Sora (OpenAI)

Sora je nejnovější oznámené jméno, ale způsobilo největší rozruch, částečně proto, že je produktem OpenAI - slavného vývojáře ChatGPT, ale hlavně kvůli kvalitě videí, která program vytváří pouze z textových příkazů.

Úspěch společnosti s ChatGPT také dává její umělé inteligenci hluboké porozumění jazyku. Klipy demonstrující Sorovy schopnosti ukazují postavy, jak se pohybují a vyjadřují způsobem, který je stejně realistický jako film natočený lidskými záběry.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — „Surrealistické“ video vytvořené Sorou z textových příkazů

Sora ale zatím není z bezpečnostních důvodů dostupná pro veřejnost. OpenAI před jejím zpřístupněním široké veřejnosti podnikne pečlivé kroky, zejména s ohledem na rostoucí počet uživatelů umělé inteligence využívaných k nekalém účelům, jako je vydávání se za jiné uživatele nebo páchání trestné činnosti.

Lumiere (Google)

Lumiere je produkt od Googlu, který je schopen generovat videa z textového vstupu na základě modelu strukturní difúze STUNet (Space-Time-U-Net). Lumiere se neobtěžuje se spojováním statických snímků, ale místo toho tato umělá inteligence identifikuje detaily ve videu (prostorová část), sleduje, jak se pohybují a zároveň mění (časová část), a tím pomáhá plynulému průběhu procesu.

Stejně jako Sora, ani Lumiere nebyl veřejnosti k dispozici. Společnost tento model představila až koncem ledna 2024 po spuštění Gemini – modelu pro velké jazyky, který byl právě synchronizován s Bardem.

VideoPoet (Google)

Tento rozsáhlý jazykový model (LLM) je trénován z obrovského úložiště videí, fotografií, zvuku a textu, které v roce 2023 vyvinula služba Google Search. VideoPoet dokáže provádět různé úkoly ze vstupních zdrojů, jako je text, fotografie, videa..., a vytvářet videa, zvýrazňovat obsah, převádět videa na zvuk, převádět statické obrázky na animace...

Původní myšlenka pro VideoPoet vycházela z potřeby převést jakýkoli autoregresní jazykový model do systému pro generování videa. Současné autoregresní jazykové modely dokáží zpracovávat text a programovací kód podobně jako lidé, ale mají potíže s videem. VideoPoet to řeší pomocí tokenizace k překladu vstupu z jakéhokoli formátu do jazyka, kterému rozumí.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Nástroje pro tvorbu videí z textu většinou testují své limity

Emu Video (Meta)

Kromě Googlu a OpenAI je Meta také jednou z velkých technologických společností, které se aktivně podílejí na vývoji umělé inteligence. Společnost, která vlastní Facebook, také vyvinula umělou inteligenci pro tvorbu videí s názvem Emu Video, která dokáže převádět obrázky na text a poté je použít jako data k vytváření klipů.

Emu Video dostává od beta testerů pozitivní recenze, přičemž 81 % z nich ho preferuje před Imagen Video (Google). Více než 90 % zvolilo model od Mety před PYOCO (Nvidia), což je dokonce lepší než Make-A-Video od Mety (96 %).

CogVideo (Univerzita Tsinghua, Čína)

Na rozdíl od výše uvedených modelů, které jsou produkty předních světových technologických společností, je CogVideo umělá inteligence vyvinutá výzkumným týmem z Univerzity Tsinghua – prestižní školy v Číně i Asii. Program je založen na CogView2, předtrénovaném modelu převodu textu do obrazu.

Expert na počítačové umění Glenn Marshall, který CogVideo testoval, uvedl, že „režiséři by mohli přijít o práci“. Jeho klip s názvem Vrána , vytvořený s pomocí CogVidea, se setkal s velkou chválou a byl nominován na cenu Britské filmové akademie (BAFTA).

Zdrojový odkaz