
A Google I/O 2025 rendezvényen a Google sokkolta a tech világot, amikor bemutatta a Veo 3 nevű videógeneráló mesterséges intelligencia modelljét, ami nagy lépést jelentett egy techóriás számára egy vitatott területen.
Allison Johnson, a The Verge riportere tapasztalatai szerint a Veo 3 legkifinomultabb tulajdonsága, hogy minden videóhoz eredeti hangot tud létrehozni, a hangeffektektől és a háttérzajtól kezdve egészen a karakterek párbeszédéig.
„A Veo 3 számomra egy abszolút ’szemét’, mesterséges intelligencia által generált tartalomgyártó gépezetnek tűnik” – jegyezte meg a The Verge riportere.
Új funkciók és megdöbbentő realizmus
„A kreativitás új korszakába lépünk” – magyarázta Josh Woodward, a Google Gemini alelnöke a Veo 3 bemutatóján, kiemelve az „ultrarealisztikus” videók készítésének képességét.
Johnson eleinte szkeptikus volt, de miután saját maga is kipróbálta a mesterséges intelligencia eszközét, meggyőződött arról, hogy Woodward nem túloz. A Veo 3 képes ijesztően realisztikus termékek létrehozására.
Konkrétan a The Verge riportere egy rövid videót próbált készíteni, amelyben egy híradós bejelent egy tüzet. A klip rendkívül meggyőző, a hangminőség és a díszletek hasonlóak bármely hagyományos híradáshoz.
![]() |
Jelenet a Veo 3 által készített videóból. Fotó: The Verge. |
A poszt, amely magában foglalt egy sor videót, amelyeken mesterséges intelligencia által generált karakterek tiltakoznak a videók létrehozásához használt parancsok ellen, azóta 50 000 szavazatot gyűjtött a Redditen. A jelenetek között szerepel egy katasztrófa, egy nő, aki kórházi ágyon fekszik lélegeztetőgépen, és egy karakter, akit fegyverrel fenyegetnek – mindezt szóbeli párbeszédekkel és realisztikus háttérhangokkal kísérve.
Más mesterséges intelligenciával támogatott videókészítő eszközökhöz képest a Veo 3 sokkal egyszerűbbé tette a dolgokat. Csupán egy alapvető parancsra, néhány perc várakozásra a platform feldolgozására, és egy előfizetésre van szükség a Google AI Ultra csomagjára (havi 249,99 dollár ).
Johnson számára még könnyebb volt videókat készíteni kevésbé specifikus parancsokkal, és ez egy dologra mutatott rá: a Veo 3 kiválóan alkalmas a gyerekeknek szánt, legkisebb közös nevezővel rendelkező YouTube-tartalmak létrehozására.
A „némafilm-korszak” vége
A mai napig egyetlen mesterséges intelligencia által vezérelt videógeneráló modell sem volt képes szinkronizált hangot, vagy bármilyen hangot egyidejűleg biztosítani a videókimenethez. A Veo 3 azonban – szinkronizált hanggenerálási képességeivel – a „néma korszak” végét kívánja vetni.
„Kilépünk a videókészítés csendes korszakából” – mondta Demis Hassabis, a Google DeepMind vezérigazgatója egy sajtótájékoztatón.
A videókészítő eszközök széles körű elérhetősége a szállítók számának robbanásszerű növekedéséhez vezetett, olyannyira, hogy a piac telítetté válik.
Az olyan startupoktól, mint a Runway, a Lightricks, a Genmo, a Pika, a Higgsfield, a Kling és a Luma, egészen az olyan technológiai óriásokig, mint az OpenAI és az Alibaba, a modellek gyors ütemben jelennek meg. Sok esetben kevés különbség van ezek között a modellek között.
Az még várat magára, hogy a Veo 3 képes lesz-e felülmúlni az OpenAI Sorát videóminőség tekintetében, de a teljesen elkészített videók hanggal és képpel történő kimenetének képessége azonnal vonzóbb platformmá teheti a Veo 3-at.
![]() |
A Veo 3 legkiemelkedőbb tulajdonsága, hogy képes a hangot „tökéletes” szinkronban létrehozni a videóval. Fotó: Google. |
„A film és a televízió világában a háttérzaj és a hangeffektek gyakran művészek munkái. Képzeljük el, hogy mindössze annyit kellene tennünk, hogy leírjuk a Veo-nak a kívánt háttérhangot, amelyet a cselekményhez csatolunk, és az mindent megjelenítene, beleértve a videót és a párbeszédeket is. Ez egy olyan munka, amelyet az animátorok heteket vagy hónapokat töltenének el” – jegyezte meg Johnson.
Ha a Veo 3 valóban képes parancsokat követni és órákon át konzisztens videót és hangot produkálni, akkor nem kell sokat várni, hogy elkészüljön az első teljes egészében mesterséges intelligenciával készült animációs film.
A Veo 3 indulása után nem sokkal az alkotók elkezdtek klipeket megosztani olyan platformokon, mint az X, köztük egy teljes egészében mesterséges intelligenciával készült stand-up comedy videót. A nézők ámulva tapasztalták, hogy a teljes jelenet, beleértve a hangot, a videót és még a közönség hanganyagát is, csupán egy szöveges leírásból készült.
Aztán van egy másik vírusként terjedő klip, amely újraalkotja Püthagorasz híres tételének magyarázatát, ókori kontextussal és pontos párbeszédekkel kiegészítve. Még egy teljes egészében a Veo 3 által készített videoklip is készült, ahol a kép és a zene tökéletes szinkronban van.
Az Economic Times megjegyezte, hogy ez a fajta technológia a „filmkészítés új korszakának” nevezhető, amely lehetővé teszi bárki számára – az egyéni alkotóktól a nagy médiastúdiókig –, hogy alacsony költséggel és minimális erőforrásokkal professzionális tartalmakat készítsen.
Forrás: https://znews.vn/ac-mong-tu-ai-tao-video-moi-cua-google-post1556018.html
Hozzászólás (0)