Het grote probleem met Veo 3

Dit AI-model voegt, meer dan een maand na de lancering, automatisch rommelige en betekenisloze ondertitels toe aan video's. Deze situatie laat zien dat Google bereid is onafgewerkte producten uit te brengen om zijn AI-capaciteiten te demonstreren.

ZNews•19/07/2025

Veo3 is Google's nieuwste AI-model, gelanceerd eind mei, waarmee gebruikers video's kunnen maken op basis van spraakopdrachten. Dit model heeft de aandacht getrokken van de contentcreatiegemeenschap, omdat het de creatie van video's met geluid en dialoog mogelijk maakt, een functie die niet beschikbaar was in eerdere versies van Google's model, waardoor de video's realistischer worden.

Veel gebruikers gebruiken Veo 3-videoclips van maximaal 8 seconden om reclamespotjes, ASMR-video's, trailers voor fantasyfilms en humoristische straatinterviews te maken.

De voor een Oscar genomineerde regisseur Darren Aronofsky gebruikte de tool om een korte film te maken met de titel Ancestra. Tijdens de persconferentie vergeleek Demis Hassabis, CEO van Google DeepMind, de Veo 3 met een stap "uit het tijdperk van de stomme film" in de filmgeschiedenis.

"Persistent" ondertitels van Veo 3

Veel gebruikers hebben echter ondervonden dat deze tool niet naar behoren werkt. Bij het maken van clips met dialogen voegt Veo 3 vaak automatisch betekenisloze, onsamenhangende ondertitels in, zelfs wanneer de opdracht duidelijk aangeeft dat er geen ondertitels moeten worden toegevoegd.

Het verwijderen van deze ondertitels is niet eenvoudig. Gebruikers worden gedwongen de clip opnieuw te maken, waarbij ze "tokens" moeten uitgeven (wat betekent dat ze meer geld aan Google moeten besteden), of externe tools moeten gebruiken om de ondertitels te verwijderen, of de video moeten bijsnijden om de ondertitels te verwijderen.

Veo 3 produceert realistische beelden en dialogen die overeenkomen met de lipbewegingen, maar de ondertitels zijn betekenisloos. Foto: Lesswrong .

Josh Woodward, vicepresident van Google Labs en Gemini, meldde op 9 juni op X dat Google patches had ontwikkeld om het spamprobleem te verminderen. Maar meer dan een maand later melden gebruikers dit probleem nog steeds op het Discord-kanaal van Google Labs, wat aantoont dat het oplossen van bugs in grote AI-modellen niet eenvoudig is.

Net als Google's eerdere AI-modellen voor het maken van video's, is Veo 3 een betaald model, met een startprijs van $ 249,99 per maand. Om een video van 8 seconden te maken, voeren gebruikers een beschrijving in via Flow, Gemini of een ander platform. Het maken van elke video met Veo 3 kost minimaal 20 AI-credits, en gebruikers kunnen hun tegoed aanvullen voor $ 25 voor 2.500 credits.

Mona Weiss, een reclameregisseur, zegt dat het opnieuw maken van beeldmateriaal om ondertitels te verwijderen een aanzienlijke kostenpost is geworden. "Als je een scène met dialoog maakt met Veo3, zal ongeveer 40% van het eindresultaat betekenisloze ondertitels bevatten, waardoor de video onbruikbaar wordt", zegt ze. "Het kost veel geld om een scène te krijgen die je mooi vindt, maar die uiteindelijk onbruikbaar blijkt te zijn."

Dit vind je misschien ook leuk

Digitale transformatie geeft een impuls aan coöperaties en traditionele ambachtsdorpen.Om de concurrentiekracht te vergroten, versnellen veel kleinschalige ambachtelijke coöperaties en traditionele ambachtsdorpen in Phu Tho hun technologische innovatie, ontwikkelen ze productieprocessen die gekoppeld zijn aan digitale transformatie en breiden ze hun afzetmarkten uit. Deze ontwikkelingen geven een belangrijke impuls aan de modernisering en duurzaamheid van de collectieve economische sector.

Tweetalige communicatie is essentieel voor een effectieve implementatie van de Wet op de Toegang tot Informatie in Dak Lak.Er zullen talrijke documenten in het Vietnamees of tweetalig (Vietnamees en talen van etnische minderheden) worden samengesteld om de Wet op de Toegang tot Informatie te verspreiden en te promoten onder ambtenaren, overheidsmedewerkers, werknemers en het grote publiek in de provincie.

De prijzen van geheugenchips zijn met 700% gestegen; drie fabrikanten uit Zuid-Korea en de VS hebben een rechtszaak aangespannen.Drie grote fabrikanten van geheugenchips, Samsung, SK Hynix en Micron, zijn aangeklaagd in een collectieve rechtszaak bij een Amerikaanse federale rechtbank. Ze worden beschuldigd van samenspanning om prijzen te manipuleren en opzettelijk markttekorten te creëren voor winst.

Zinloze ondertitels zijn lastig te verwijderen op de Veo 3. Foto: Technology Review .

Toen Weiss het probleem via Discord bij Google Labs meldde in de hoop haar verspilde credits terug te krijgen, verwees het supportteam haar door naar de officiële supportafdeling van het bedrijf. Daar werd een terugbetaling van de Veo 3-abonnementskosten aangeboden, maar niet van de credits. Weiss weigerde dit, omdat ze dan geen toegang meer zou hebben tot het model.

Het Discord-ondersteuningsteam van Google Labs heeft aangegeven dat ondertitels mogelijk automatisch worden geactiveerd als er spraak wordt gedetecteerd, en dat ze eraan werken om deze bug te verhelpen.

Het probleem komt voort uit de aanpak van Google.

De reden waarom Veo 3 automatisch ondertitels invoegt, komt voort uit de gegevens waarop het model is getraind.

Hoewel Google geen details heeft vrijgegeven over de datacategorieën die worden gebruikt om de modellen te trainen, omvat dit waarschijnlijk video's van platforms zoals YouTube en TikTok, waarvan vele ondertitels bevatten. Deze ondertitels zijn direct in de videoframes ingebed, waardoor het lastig is ze te verwijderen voordat ze als trainingsdata worden gebruikt, aldus Shuo Niu, onderzoeker naar videodeelplatforms en AI aan de Clark University (Massachusetts, VS).

"Tekst-naar-video-modellen worden getraind met behulp van reinforcement learning om content te creëren die lijkt op door mensen gemaakte video's. Als die video's ondertitels hebben, kan het model 'leren' dat het toevoegen van ondertitels het product meer op een door mensen gemaakte video laat lijken," legde hij uit.

Veo 3 werd beïnvloed door trainingsdata van YouTube- en TikTok-video's. Afbeelding: Mashable .

Een woordvoerder van Google zei: "We verbeteren voortdurend onze mogelijkheden voor het maken van video's, met name op het gebied van tekst, natuurlijk klinkende stemmen en perfect gesynchroniseerde audio. We moedigen gebruikers aan om de opdracht opnieuw te proberen als ze inconsistente resultaten vinden en ons feedback te geven via de 'vind ik leuk' of 'vind ik niet leuk' functie."

Verenigde Staten - Vietnam: Mis het niet

Vietnam moedigt Amerikaanse bedrijven aan om hun investeringen in hoogwaardige technologie uit te breiden.Op de ochtend van 26 juni ontving vicepremier Ho Quoc Dung de heer Jeff Place, Supply Chain Director van Coherent Group (VS), in het regeringsgebouw. Tijdens de bijeenkomst bevestigde de vicepremier dat Vietnam Amerikaanse bedrijven aanmoedigt om hun investeringen uit te breiden, met name in de hightech-, innovatie- en halfgeleiderindustrie.

Stimuleer Amerikaanse bedrijven om hun investeringen in hightechsectoren uit te breiden.Vicepremier Ho Quoc Dung zei dat Vietnam Amerikaanse bedrijven verwelkomt die hun activiteiten in Vietnam verder willen uitbreiden, met name in hightechindustrieën en sectoren met een hoge toegevoegde waarde.

Vietnam en de Verenigde Staten versterken hun samenwerking bij het aanpakken van de gevolgen van de oorlog.VTV.vn - Op 22 juni ontving secretaris-generaal en president To Lam de waarnemend secretaris van de Amerikaanse marine, Hung Cao.

Bovendien negeert dit model aanwijzingen zoals "Geen ondertitels" omdat negatieve uitspraken (die de AI opdragen iets niet te doen) over het algemeen minder effectief zijn dan bevestigende aanwijzingen, aldus Tuhin Chakrabarty, onderzoeker in AI-systemen aan de Stony Brook University.

Om het probleem volledig op te lossen, moet Google elk frame van alle video's die gebruikt zijn om Veo 3 te trainen, onderzoeken en vervolgens de ondertitels uit de video's verwijderen of opnieuw labelen voordat het model opnieuw getraind wordt. Dit zal weken duren, voegde Chakrabarty eraan toe.

Katerina Cizek, documentairemaakster en art director bij het MIT Open Documentary Lab, stelt dat dit probleem aantoont dat Google bereid is producten uit te brengen die nog niet volledig af zijn.

"Google moet een overwinning behalen," aldus Cizek. "Ze moeten als eerste een tool uitbrengen waarmee audio kan worden gegenereerd die de lipbewegingen nabootst. En dat is belangrijker dan het oplossen van het ondertitelingsprobleem."

Bron: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html