Sora (OpenAI)
A Sora a legújabb bejelentett név, mégis a legnagyobb feltűnést keltette, részben azért, mert az OpenAI – a ChatGPT híres fejlesztőjének – terméke, de főként a program által pusztán szöveges parancsokból készített videók minősége miatt.
A vállalat ChatGPT-vel elért sikere a mesterséges intelligencia mélyreható nyelvi megértését is lehetővé teszi. A Sora képességeit bemutató klipek a szereplőket olyan élethűen mutatják be, mint egy ember által forgatott filmben.
Sora szöveges parancsokból készített "szürrealisztikus" videót
A Sora azonban biztonsági okokból még nem érhető el nyilvános fogyasztásra. Az OpenAI körültekintő intézkedéseket fog tenni, mielőtt elérhetővé tenné a nagyközönség számára, különösen tekintettel arra, hogy egyre több MI-felhasználót használnak fel rosszindulatú célokra, például felhasználók megszemélyesítésére vagy bűncselekmények elkövetésére.
Lumière (Google)
A Lumiere a Google terméke, amely szövegbevitelből is képes videókat generálni az STUNet (Space-Time-U-Net) struktúradiffúziós modell alapján. A Lumiere nem bajlódik az állóképek összeillesztésével, hanem ez a mesterséges intelligencia azonosítja a videó részleteit (térbeli rész), nyomon követi, hogyan mozognak, változnak egyszerre (időbeli rész), ezáltal segítve a folyamat zökkenőmentes lebonyolítását.
A Sorához hasonlóan a Lumiere sem került még nyilvánosságra. A cég ezt a modellt csak 2024 januárjának végén mutatta be a Gemini – a Barddal szinkronizált nagyméretű nyelvi modell – megjelenése után.
VideoPoet (Google)
Ez a nagy nyelvi modell (LLM) a Google Keresés által 2023-ban fejlesztett hatalmas videó-, fotó-, hang- és szövegtárból van betanítva. A VideoPoet különféle feladatokat képes végrehajtani olyan bemeneti forrásokból, mint a szöveg, fotók, videók... videók létrehozásához, tartalom kiemeléséhez, videók hanganyaggá konvertálásához, állóképek animációkká alakításához...
A VideoPoet eredeti ötlete abból az igényből fakadt, hogy bármilyen autoregresszív nyelvi modellt videógeneráló rendszerré kelljen alakítani. A jelenlegi autoregresszív nyelvi modellek képesek a szöveget és a programozási kódot az emberekhez hasonlóan feldolgozni, de a videók esetében nehézségeik vannak. A VideoPoet ezt úgy oldja meg, hogy tokenizációt használ, amely bármilyen formátumból származó bemenetet egy általa megértett nyelvre fordít.
A szövegből videók készítésére szolgáló eszközök többnyire a határaikat feszegetik
Emu videó (Meta)
A Google és az OpenAI mellett a Meta is egyike azon nagy tech cégeknek, amelyek aktívan részt vesznek a mesterséges intelligencia fejlesztésében. A Facebookot birtokló cég kifejlesztett egy videókészítő mesterséges intelligenciát is, az Emu Video-t, amely képes képeket szöveggé alakítani, majd adatként felhasználni klipek készítéséhez.
Az Emu Video pozitív visszajelzéseket kap a béta tesztelőktől, 81%-uk jobban kedveli az Imagen Video (Google) modelljével szemben. Több mint 90%-uk a Meta modelljét választotta a PYOCO (Nvidia) modelljével szemben, ami még a Meta Make-A-Video modelljét is (96%) jobbnak tartja.
CogVideo (Tsinghua Egyetem, Kína)
A fenti modellekkel ellentétben, amelyek mind a világ vezető technológiai vállalatainak termékei, a CogVideo egy mesterséges intelligencia, amelyet a Tsinghua Egyetem – Kína és Ázsia egyik legelismertebb egyeteme – kutatócsoportja fejlesztett ki. A program a CogView2-n alapul, amely egy előre betanított szöveg-kép modell.
Glenn Marshall számítógépes művészeti szakértő, aki a CogVideo-t tesztelte, azt mondta, hogy „a rendezők elveszíthetik az állásukat”. A CogVideo segítségével készült The Crow című klipje nagy elismerést kapott, és jelölték a Brit Filmakadémia Filmdíjára (BAFTA).
[hirdetés_2]
Forráslink






Hozzászólás (0)