Sora (OpenAI)
Sora je nejnovější oznámené jméno, ale způsobilo největší rozruch, částečně proto, že je produktem OpenAI - slavného vývojáře ChatGPT, ale hlavně kvůli kvalitě videí, která program vytváří pouze z textových příkazů.
Úspěch společnosti s ChatGPT také dává její umělé inteligenci hluboké porozumění jazyku. Klipy demonstrující Sorovy schopnosti ukazují postavy, jak se pohybují a vyjadřují způsobem, který je stejně realistický jako film natočený lidskými záběry.
„Surrealistické“ video vytvořené Sorou z textových příkazů
Sora ale zatím není z bezpečnostních důvodů dostupná pro veřejnost. OpenAI před jejím zpřístupněním široké veřejnosti podnikne pečlivé kroky, zejména s ohledem na rostoucí počet uživatelů umělé inteligence využívaných k nekalém účelům, jako je vydávání se za jiné uživatele nebo páchání trestné činnosti.
Lumiere (Google)
Lumiere je produkt od Googlu, který je schopen generovat videa z textového vstupu na základě modelu strukturní difúze STUNet (Space-Time-U-Net). Lumiere se neobtěžuje se spojováním statických snímků, ale místo toho tato umělá inteligence identifikuje detaily ve videu (prostorová část), sleduje, jak se pohybují a zároveň mění (časová část), a tím pomáhá plynulému průběhu procesu.
Stejně jako Sora, ani Lumiere nebyl veřejnosti k dispozici. Společnost tento model představila až koncem ledna 2024 po spuštění Gemini – modelu pro velké jazyky, který byl právě synchronizován s Bardem.
VideoPoet (Google)
Tento rozsáhlý jazykový model (LLM) je trénován z obrovského úložiště videí, fotografií, zvuku a textu, které v roce 2023 vyvinula služba Google Search. VideoPoet dokáže provádět různé úkoly ze vstupních zdrojů, jako je text, fotografie, videa..., a vytvářet videa, zvýrazňovat obsah, převádět videa na zvuk, převádět statické obrázky na animace...
Původní myšlenka pro VideoPoet vycházela z potřeby převést jakýkoli autoregresní jazykový model do systému pro generování videa. Současné autoregresní jazykové modely dokáží zpracovávat text a programovací kód podobně jako lidé, ale mají potíže s videem. VideoPoet to řeší pomocí tokenizace k překladu vstupu z jakéhokoli formátu do jazyka, kterému rozumí.
Nástroje pro tvorbu videí z textu většinou testují své limity
Emu Video (Meta)
Kromě Googlu a OpenAI je Meta také jednou z velkých technologických společností, které se aktivně podílejí na vývoji umělé inteligence. Společnost, která vlastní Facebook, také vyvinula umělou inteligenci pro tvorbu videí s názvem Emu Video, která dokáže převádět obrázky na text a poté je použít jako data k vytváření klipů.
Emu Video dostává od beta testerů pozitivní recenze, přičemž 81 % z nich ho preferuje před Imagen Video (Google). Více než 90 % zvolilo model od Mety před PYOCO (Nvidia), což je dokonce lepší než Make-A-Video od Mety (96 %).
CogVideo (Univerzita Tsinghua, Čína)
Na rozdíl od výše uvedených modelů, které jsou produkty předních světových technologických společností, je CogVideo umělá inteligence vyvinutá výzkumným týmem z Univerzity Tsinghua – prestižní školy v Číně i Asii. Program je založen na CogView2, předtrénovaném modelu převodu textu do obrazu.
Expert na počítačové umění Glenn Marshall, který CogVideo testoval, uvedl, že „režiséři by mohli přijít o práci“. Jeho klip s názvem Vrána , vytvořený s pomocí CogVidea, se setkal s velkou chválou a byl nominován na cenu Britské filmové akademie (BAFTA).
Zdrojový odkaz
Komentář (0)