A Google új mesterséges intelligencia által létrehozott videóalkotásának „rémálma”.

Néhány alapvető paranccsal a Veo 3 – a Google legújabb mesterséges intelligenciával működő videókészítője – hihetetlenül valósághűen képes visszaállítani a „szemét” videókat.

ZNews•27/05/2025

A Google I/O 2025 rendezvényen a Google sokkolta a tech világot a Veo 3 nevű mesterséges intelligencia alapú videókészítő modelljének bemutatásával, amely jelentős lépést jelentett a techóriás számára egy rendkívül vitatott területen.

Allison Johnson, a The Verge riportere szerint a Veo 3 legkifinomultabb aspektusa, hogy minden videóhoz eredeti hangot tud létrehozni, a hangeffektektől és a háttérzajtól kezdve a karakterek párbeszédéig.

„A Veo 3 lenyűgözött, mint egy olyan gép, ami abszolút „szemét” mesterséges intelligencia alapú tartalmakat gyárt” – jegyezte meg a The Verge egyik riportere.

A Google új, mesterséges intelligenciával vezérelt videógenerátora szenzációt kelt magas szintű realizmusával. Allison Johnson, a The Verge riportere szerint a Veo 3 legkifinomultabb aspektusa, hogy minden videóhoz eredeti hangot tud létrehozni, a hangeffektektől és a háttérzajtól kezdve a szereplők párbeszédéig.

Új funkciók és megdöbbentő realizmus.

„A kreativitás új korszakába lépünk” – magyarázta Josh Woodward, a Google Gemini alelnöke a Veo 3 bemutatóján, kiemelve a „rendkívül realisztikus” videók készítésére való képességét.

Johnson kezdetben szkeptikus volt, de miután személyesen is megtapasztalta a mesterséges intelligencia eszközét, megerősítette, hogy Woodward nem túlzott. A Veo 3 képes ijesztően realisztikus termékek létrehozására.

Konkrétan a The Verge egyik riportere megpróbált egy rövid videót készíteni, amelyben egy híradós bejelent egy tüzet. A klip hihetetlenül meggyőző volt, a hang- és képi világa hasonló volt bármely hagyományos híradáséhoz.

Jelenet a Veo 3 által készített videóból. Fotó: The Verge.

Röviddel ezután a poszt, amely magában foglalt egy sor videót, amelyeken mesterséges intelligencia által generált karakterek tiltakoznak a videók létrehozásához használt parancsok ellen, 50 000 kedvelést kapott a Redditen. A jelenetek között szerepelt egy katasztrófa, egy nő, aki kórházi ágyban fekszik és lélegeztetőcsövet használ, valamint egy karakter, akit fegyverrel fenyegetnek – mindezt szóbeli párbeszédekkel és realisztikus háttérhangokkal.

Más mesterséges intelligenciával támogatott videókészítő eszközökhöz képest a Veo 3 sokkal egyszerűbbé tette a dolgokat. Csupán egy alapvető parancsra, néhány percre van szükség a platform feldolgozásához, és elő kell fizetni a Google AI Ultra csomagjára (havi 249,99 dollár ).

Johnson még a videók létrehozását is könnyebbnek találta kevésbé specifikus parancsok használatával, és ez egy dolgot bizonyít: a Veo 3 kiválóan alkalmas a gyermekek számára készült legkisebb közös nevezővel rendelkező YouTube-tartalmak létrehozására.

Vége a „némafilm-korszaknak”

A mai napig egyetlen mesterséges intelligencia által támogatott videókészítő modell sem volt képes szinkronizált hangot, vagy bármilyen más hangot a videókimenethez csatolni. A Veo 3 azonban – a szinkronizált hang létrehozásának képességével – a „némafilm-korszak” végét célozza.

„Kilépünk a videókészítés csendes korszakából” – mondta Demis Hassabis, a Google DeepMind vezérigazgatója egy sajtótájékoztatón.

A videókészítő eszközök széles körű elérhetősége a szállítók számának robbanásszerű növekedéséhez vezetett, olyannyira, hogy ez a piac telítetté válik.

Az olyan startupoktól, mint a Runway, a Lightricks, a Genmo, a Pika, a Higgsfield, a Kling és a Luma, egészen az olyan technológiai óriásokig, mint az OpenAI és az Alibaba, a modellek gyors ütemben jelennek meg. Sok esetben kevés különbség van ezek között a modellek között.

Továbbra sem világos, hogy a Veo 3 képes-e felülmúlni az OpenAI Sorát videóminőségben. Azonban pusztán az, hogy teljesen elkészített videoklipeket lehet exportálni képpel és hanggal együtt, azonnal vonzóbb platformmá teheti a Veo 3-at.

A Veo 3 legkiemelkedőbb tulajdonsága, hogy képes „tökéletesen” szinkronizált hangot és videót létrehozni. Kép: Google.

„ A film és a televízió világában a háttérzaj és a hangeffektek általában művészek munkái. Most képzeljük el, hogy mindössze annyit kellene tennünk, hogy leírjuk Veónak a háttérben kívánt hangot, és az akcióhoz kötjük, és az mindent megjelenítene, beleértve a videót és a párbeszédeket is. Ez egy olyan munka, amelyet az animátoroknak hetekig vagy hónapokig tartana elvégezni” – jegyezte meg Johnson.

Ha a Veo 3 valóban képes lesz parancsokat követni, és órákon át konzisztens videót és hangot produkálni, akkor nem kell sokat várni, hogy elkészüljön az első teljes egészében mesterséges intelligenciával készült animációs film.

Közvetlenül a Veo 3 megjelenése után az alkotók elkezdték megosztani a klipeket olyan platformokon, mint az X, amelyek közül a legismertebb egy teljes egészében mesterséges intelligencia által készített stand-up comedy videó. A nézők meglepődve tapasztalták, hogy a teljes jelenet, beleértve a narrációkat, a videót és még a közönség hangjait is, egyetlen írásos parancsból generálódott.

Aztán egy másik klip terjedt el virálisan, amelyben Pitagorasz híres tételét magyarázza, ősi környezettel és pontos párbeszédekkel kiegészítve. Még egy teljes egészében a Veo 3 által készített videoklip is készült, ahol a kép és a zene tökéletesen szinkronizálva volt.

Az Economic Times megjegyezte, hogy ez a fajta technológia a „filmkészítés új korszakának” nevezhető, amely lehetővé teszi bárki számára – az egyéni alkotóktól a nagy médiastúdiókig –, hogy alacsony költséggel és minimális erőforrásokkal professzionális tartalmat készítsen.

Forrás: https://znews.vn/ac-mong-tu-ai-tao-video-moi-cua-google-post1556018.html