
Veo3 is Google's nieuwste AI-model, gelanceerd eind mei, waarmee gebruikers video's kunnen maken op basis van spraakopdrachten. Dit model heeft de aandacht getrokken van de contentcreatiegemeenschap, omdat het de creatie van video's met geluid en dialoog mogelijk maakt, een functie die niet beschikbaar was in eerdere versies van Google's model, waardoor de video's realistischer worden.
Veel gebruikers gebruiken Veo 3-videoclips van maximaal 8 seconden om reclamespotjes, ASMR-video's, trailers voor fantasyfilms en humoristische straatinterviews te maken.
De voor een Oscar genomineerde regisseur Darren Aronofsky gebruikte de tool om een korte film te maken met de titel Ancestra. Tijdens de persconferentie vergeleek Demis Hassabis, CEO van Google DeepMind, de Veo 3 met een stap "uit het tijdperk van de stomme film" in de filmgeschiedenis.
"Persistent" ondertitels van Veo 3
Veel gebruikers hebben echter ondervonden dat deze tool niet naar behoren werkt. Bij het maken van clips met dialogen voegt Veo 3 vaak automatisch betekenisloze, onsamenhangende ondertitels in, zelfs wanneer de opdracht duidelijk aangeeft dat er geen ondertitels moeten worden toegevoegd.
Het verwijderen van deze ondertitels is niet eenvoudig. Gebruikers worden gedwongen de clip opnieuw te maken, waarbij ze "tokens" moeten uitgeven (wat betekent dat ze meer geld aan Google moeten besteden), of externe tools moeten gebruiken om de ondertitels te verwijderen, of de video moeten bijsnijden om de ondertitels te verwijderen.
![]() |
Veo 3 produceert realistische beelden en dialogen die overeenkomen met de lipbewegingen, maar de ondertitels zijn betekenisloos. Foto: Lesswrong . |
Josh Woodward, vicepresident van Google Labs en Gemini, meldde op 9 juni op X dat Google patches had ontwikkeld om het spamprobleem te verminderen. Maar meer dan een maand later melden gebruikers dit probleem nog steeds op het Discord-kanaal van Google Labs, wat aantoont dat het oplossen van bugs in grote AI-modellen niet eenvoudig is.
Net als Google's eerdere AI-modellen voor het maken van video's, is Veo 3 een betaald model, met een startprijs van $ 249,99 per maand. Om een video van 8 seconden te maken, voeren gebruikers een beschrijving in via Flow, Gemini of een ander platform. Het maken van elke video met Veo 3 kost minimaal 20 AI-credits, en gebruikers kunnen hun tegoed aanvullen voor $ 25 voor 2.500 credits.
Mona Weiss, een regisseur van reclamespotjes, zegt dat het opnieuw maken van beeldmateriaal om ondertitels te verwijderen een aanzienlijke kostenpost is geworden. "Als je een scène met dialoog maakt met Veo3, zal ongeveer 40% van het eindresultaat betekenisloze ondertitels bevatten, waardoor de video onbruikbaar wordt", zegt ze. "Het kost veel geld om een scène te krijgen die je mooi vindt, maar die uiteindelijk onbruikbaar blijkt te zijn."
![]() |
Zinloze ondertitels zijn lastig te verwijderen op de Veo 3. Foto: Technology Review . |
Toen Weiss het probleem via Discord bij Google Labs meldde in de hoop haar verspilde credits terug te krijgen, verwees het supportteam haar door naar de officiële supportafdeling van het bedrijf. Ze boden een terugbetaling aan voor het Veo 3-abonnement, maar niet voor de credits. Weiss weigerde, omdat ze met een terugbetaling geen toegang meer zou hebben tot het model.
Het Discord-ondersteuningsteam van Google Labs heeft aangegeven dat ondertitels mogelijk automatisch worden geactiveerd als er spraak wordt gedetecteerd, en dat ze eraan werken om deze bug te verhelpen.
Het probleem komt voort uit de aanpak van Google.
De reden waarom Veo 3 automatisch ondertitels invoegt, komt voort uit de gegevens waarop het model is getraind.
Hoewel Google geen details heeft vrijgegeven over de datacategorieën die worden gebruikt om de modellen te trainen, omvat dit waarschijnlijk video's van platforms zoals YouTube en TikTok, waarvan vele ondertitels bevatten. Deze ondertitels zijn direct in de videoframes ingebed, waardoor het lastig is ze te verwijderen voordat ze als trainingsdata worden gebruikt, aldus Shuo Niu, onderzoeker naar videodeelplatforms en AI aan de Clark University (Massachusetts, VS).
"Tekst-naar-video-modellen worden getraind met behulp van reinforcement learning om content te creëren die lijkt op door mensen gemaakte video's. Als die video's ondertitels hebben, kan het model 'leren' dat het toevoegen van ondertitels het product meer op een door mensen gemaakte video laat lijken," legde hij uit.
![]() |
Veo 3 werd beïnvloed door trainingsdata van YouTube- en TikTok-video's. Afbeelding: Mashable . |
Een woordvoerder van Google zei: "We verbeteren voortdurend onze mogelijkheden voor het maken van video's, met name op het gebied van tekst, natuurlijk klinkende stemmen en perfect gesynchroniseerde audio. We moedigen gebruikers aan om de opdracht opnieuw te proberen als ze inconsistente resultaten vinden en ons feedback te geven via de 'vind ik leuk' of 'vind ik niet leuk' functie."
Bovendien negeert dit model aanwijzingen zoals "Geen ondertitels" omdat negatieve uitspraken (die de AI opdragen iets niet te doen) over het algemeen minder effectief zijn dan bevestigende aanwijzingen, aldus Tuhin Chakrabarty, onderzoeker in AI-systemen aan de Stony Brook University.
Om het probleem volledig op te lossen, moet Google elk frame van alle video's die gebruikt zijn om Veo 3 te trainen, onderzoeken en vervolgens de ondertitels uit de video's verwijderen of de ondertitels opnieuw labelen voordat het model opnieuw getraind wordt. Dit zal weken duren, voegde Chakrabarty eraan toe.
Katerina Cizek, documentairemaakster en art director bij het MIT Open Documentary Lab, stelt dat dit probleem aantoont dat Google bereid is producten uit te brengen die nog niet volledig af zijn.
"Google moet een overwinning behalen," aldus Cizek. "Ze moeten als eerste een tool uitbrengen waarmee audio kan worden gegenereerd die de lipbewegingen nabootst. En dat is belangrijker dan het oplossen van het ondertitelingsprobleem."
Bron: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Reactie (0)