
A Veo3 a Google legújabb mesterséges intelligencia modellje, amelyet május végén mutattak be, és amely lehetővé teszi a felhasználók számára, hogy hangutasítások alapján készítsenek videókat . Ez a modell felkeltette a tartalomkészítő közösség figyelmét, mivel lehetővé teszi hanggal és párbeszéddel ellátott videók készítését, ami a Google modelljének korábbi verzióiban nem volt elérhető, így realisztikusabbá teszi azokat.
Sok felhasználó használ Veo 3 videoklipeket, akár 8 másodperc hosszúságban, reklámok, ASMR videók, fantasy filmelőzetesek és humoros utcai interjúk készítéséhez.
Az Oscar-díjra jelölt rendező, Darren Aronofsky az eszközt használta egy Ancestra című rövidfilm elkészítéséhez. A sajtótájékoztatón Demis Hassabis, a Google DeepMind vezérigazgatója a Veo 3-at a filmművészet „némafilm-korszakából való kilépéshez” hasonlította.
„Persistent” felirat a Veo 3-ból
Sok felhasználó azonban azt tapasztalta, hogy ez az eszköz nem a várt módon működik. Párbeszédeket tartalmazó klipek létrehozásakor a Veo 3 gyakran automatikusan értelmetlen, kusza feliratokat illeszt be, még akkor is, ha a parancs egyértelműen azt mondja ki, hogy ne adjon hozzá feliratokat.
Ezeknek a feliratoknak az eltávolítása nem egyszerű. A felhasználók kénytelenek újraalkotni a klipet, „tokeneket” költve, ami azt jelenti, hogy több pénzt kell költeniük a Google-on, vagy külső eszközöket használni a feliratok eltávolításához, esetleg megvágni a videót a feliratok eltávolításához.
![]() |
A Veo 3 realisztikus látványt és az ajakmozgásokhoz illő párbeszédeket produkál, de a feliratok értelmetlenek. Fotó: Lesswrong . |
Josh Woodward, a Google Labs és a Gemini alelnöke június 9-én tette közzé az X-en, hogy a Google javításokat fejlesztett ki a spamprobléma csökkentésére. Több mint egy hónappal később azonban a felhasználók továbbra is jelentik ezt a problémát a Google Labs Discord csatornáján, ami azt mutatja, hogy a nagyméretű mesterséges intelligencia modellek hibáinak javítása nem egyszerű.
A Google korábbi mesterséges intelligencia alapú videókészítő modelljeihez hasonlóan a Veo 3 is fizetős modell, havi 249,99 dollártól kezdődően. Egy 8 másodperces videó létrehozásához a felhasználóknak meg kell adniuk egy leírást a Flow, a Gemini vagy más platformon. Minden klip létrehozása a Veo 3 segítségével legalább 20 mesterséges intelligencia alapú kreditbe kerül, és a felhasználók 25 dollárral feltölthetik az egyenlegüket, így 2500 kreditet kaphatnak.
Mona Weiss, kereskedelmi rendező szerint a feliratok eltávolítása utáni felvételek újrakészítése jelentős költséggel jár. „Ha Veo3-mal hozol létre párbeszédeket tartalmazó jelenetet, a kimenet körülbelül 40%-ában értelmetlen feliratok lesznek, amelyek használhatatlanná teszik a videót” – mondja. „Sok pénzbe kerül, ha egy jelenet tetszik, de végül használhatatlanná válik.”
![]() |
Az értelmetlen feliratokat nehéz eltávolítani a Veo 3-on. Fotó: Technology Review . |
Amikor Weiss a Discordon keresztül jelentette a problémát a Google Labsnek abban a reményben, hogy visszakapja az elvesztegetett kreditjeit, a támogató csapat a cég hivatalos támogatási osztályához irányította. Felajánlották a Veo 3 előfizetési díj visszatérítését, de a kreditekét nem. Weiss ezt elutasította, mert a visszatérítés elfogadása a modellhez való hozzáférés elvesztését jelentette volna.
A Google Labs Discord támogató csapata kijelentette, hogy a feliratok automatikusan aktiválódhatnak, ha hangot észlelnek, és dolgoznak a hiba kijavításán.
A probléma a Google megközelítéséből fakad.
Azért szúrja be automatikusan a feliratokat a Veo 3, mert az adatok alapján képezték ki a modellt.
Bár a Google nem hozta nyilvánosságra a modelljei betanításához használt adatkategóriák részleteit, valószínűleg olyan platformokról származó videókat is tartalmaznak, mint a YouTube és a TikTok, amelyek közül sok feliratot tartalmaz. Ezek a feliratok közvetlenül a videoképkockákba vannak beágyazva, így nehéz eltávolítani őket, mielőtt betanítási adatként használnánk őket – állítja Shuo Niu, a Clark Egyetem (Massachusetts, USA) videómegosztó platformokkal és mesterséges intelligenciával foglalkozó kutatója.
„A szövegből videóvá alakító modelleket megerősítéses tanulással képezik ki, hogy olyan tartalmat hozzanak létre, amely utánozza az ember által készített videókat, és ha ezek a videók felirattal rendelkeznek, a modell „megtanulhatja”, hogy a feliratok hozzáadása a terméket jobban hasonlít az ember által készített videóhoz” – magyarázta.
![]() |
A Veo 3-at a YouTube-ról és a TikTok-videókból származó modellképzési adatok befolyásolták. Kép: Mashable . |
A Google szóvivője elmondta: „Folyamatosan fejlesztjük videókészítési képességeinket, különösen a szöveg, a természetes hangzású hang és a tökéletesen szinkronizált hang tekintetében. Arra biztatjuk a felhasználókat, hogy próbálják meg újra a parancsot, ha az eredményeket ellentmondásosnak találják, és küldjenek visszajelzést nekünk a kedvelés vagy a nemtetszés funkción keresztül.”
Továbbá, azért figyelmen kívül hagyja ez a modell az olyan promptokat, mint a „Nincsenek feliratok”, mert a negatív kijelentések (amelyek arra utasítják a mesterséges intelligenciát, hogy ne tegyen valamit) általában kevésbé hatékonyak, mint a megerősítő promptok – állítja Tuhin Chakrabarty, a Stony Brook Egyetem mesterséges intelligencia rendszerek kutatója.
A probléma teljes megoldása érdekében a Google-nek meg kell vizsgálnia a Veo 3 betanításához használt összes videó minden egyes képkockáját, majd el kell távolítania vagy át kell címkéznie a feliratos videókat a modell újratanítása előtt. Ez hetekig is eltarthat, tette hozzá Chakrabarty.
Katerina Cizek, dokumentumfilm-készítő és az MIT Open Documentary Lab művészeti igazgatója szerint ez a szám a Google azon hajlandóságát bizonyítja, hogy olyan termékeket is kiadjon, amelyek még nem teljesen készek.
„A Google-nek győzelemre van szüksége” – jelentette ki Cizek. „Elsőként kell kiadniuk egy olyan eszközt, amely képes az ajakmozgásokhoz igazodó hangot létrehozni. És ez fontosabb, mint a feliratprobléma megoldása.”
Forrás: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Hozzászólás (0)