Szövegből videóba konvertáló mesterséges intelligenciák, mint például a Sora

[hirdetés_1]

Sora (OpenAI)

A Sora a legújabb bejelentett név, mégis a legnagyobb feltűnést keltette, részben azért, mert az OpenAI – a ChatGPT híres fejlesztőjének – terméke, de főként a program által pusztán szöveges parancsokból készített videók minősége miatt.

A vállalat ChatGPT-vel elért sikere a mesterséges intelligencia mélyreható nyelvi megértését is lehetővé teszi. A Sora képességeit bemutató klipek a szereplőket olyan élethűen mutatják be, mint egy ember által forgatott filmben.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Sora szöveges parancsokból készített "szürrealisztikus" videót

A Sora azonban biztonsági okokból még nem érhető el nyilvános fogyasztásra. Az OpenAI körültekintő intézkedéseket fog tenni, mielőtt elérhetővé tenné a nagyközönség számára, különösen tekintettel arra, hogy egyre több MI-felhasználót használnak fel rosszindulatú célokra, például felhasználók megszemélyesítésére vagy bűncselekmények elkövetésére.

Lumière (Google)

A Lumiere a Google terméke, amely szövegbevitelből is képes videókat generálni az STUNet (Space-Time-U-Net) struktúradiffúziós modell alapján. A Lumiere nem bajlódik az állóképek összeillesztésével, hanem ez a mesterséges intelligencia azonosítja a videó részleteit (térbeli rész), nyomon követi, hogyan mozognak, változnak egyszerre (időbeli rész), ezáltal segítve a folyamat zökkenőmentes lebonyolítását.

A Sorához hasonlóan a Lumiere sem került még nyilvánosságra. A cég ezt a modellt csak 2024 januárjának végén mutatta be a Gemini – a Barddal szinkronizált nagyméretű nyelvi modell – megjelenése után.

VideoPoet (Google)

Ez a nagy nyelvi modell (LLM) a Google Keresés által 2023-ban fejlesztett hatalmas videó-, fotó-, hang- és szövegtárból van betanítva. A VideoPoet különféle feladatokat képes végrehajtani olyan bemeneti forrásokból, mint a szöveg, fotók, videók... videók létrehozásához, tartalom kiemeléséhez, videók hanganyaggá konvertálásához, állóképek animációkká alakításához...

A VideoPoet eredeti ötlete abból az igényből fakadt, hogy bármilyen autoregresszív nyelvi modellt videógeneráló rendszerré kelljen alakítani. A jelenlegi autoregresszív nyelvi modellek képesek a szöveget és a programozási kódot az emberekhez hasonlóan feldolgozni, de a videók esetében nehézségeik vannak. A VideoPoet ezt úgy oldja meg, hogy tokenizációt használ, amely bármilyen formátumból származó bemenetet egy általa megértett nyelvre fordít.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — A szövegből videók készítésére szolgáló eszközök többnyire a határaikat feszegetik

Emu videó (Meta)

A Google és az OpenAI mellett a Meta is egyike azon nagy tech cégeknek, amelyek aktívan részt vesznek a mesterséges intelligencia fejlesztésében. A Facebookot birtokló cég kifejlesztett egy videókészítő mesterséges intelligenciát is, az Emu Video-t, amely képes képeket szöveggé alakítani, majd adatként felhasználni klipek készítéséhez.

Az Emu Video pozitív visszajelzéseket kap a béta tesztelőktől, 81%-uk jobban kedveli az Imagen Video (Google) modelljével szemben. Több mint 90%-uk a Meta modelljét választotta a PYOCO (Nvidia) modelljével szemben, ami még a Meta Make-A-Video modelljét is (96%) jobbnak tartja.

CogVideo (Tsinghua Egyetem, Kína)

A fenti modellekkel ellentétben, amelyek mind a világ vezető technológiai vállalatainak termékei, a CogVideo egy mesterséges intelligencia, amelyet a Tsinghua Egyetem – Kína és Ázsia egyik legelismertebb egyeteme – kutatócsoportja fejlesztett ki. A program a CogView2-n alapul, amely egy előre betanított szöveg-kép modell.

Glenn Marshall számítógépes művészeti szakértő, aki a CogVideo-t tesztelte, azt mondta, hogy „a rendezők elveszíthetik az állásukat”. A CogVideo segítségével készült The Crow című klipje nagy elismerést kapott, és jelölték a Brit Filmakadémia Filmdíjára (BAFTA).

[hirdetés_2]
Forráslink