Vietnam.vn - Nền tảng quảng bá Việt Nam

Det stora problemet med Veo 3

Denna AI-modell lägger automatiskt in röriga, meningslösa undertexter i videor mer än en månad efter lanseringen. Denna situation visar att Google är villigt att släppa ofärdiga produkter för att demonstrera sina AI-funktioner.

ZNewsZNews19/07/2025

Veo3 är Googles senaste AI-modell, som lanserades i slutet av maj, och som låter användare skapa videor baserade på röstkommandon. Modellen har uppmärksammats av innehållsskapare eftersom den möjliggör skapandet av videor med ljud och dialog, en funktion som inte fanns i tidigare versioner av Googles modell, vilket gör dem mer realistiska.

Många användare använder Veo 3-videoklipp, upp till 8 sekunder långa, för att skapa reklamfilmer, ASMR-videor, fantasy-filmtrailers och humoristiska gatuintervjuer.

Den Oscarsnominerade regissören Darren Aronofsky använde verktyget för att skapa en kortfilm med titeln Ancestra. På presskonferensen jämförde Google DeepMinds VD Demis Hassabis Veo 3 med ett steg "ut ur stumfilmseran" inom filmvärlden.

"Persistent"-undertexter från Veo 3

Många användare har dock upptäckt att det här verktyget inte fungerar som förväntat. När man skapar klipp med dialog infogar Veo 3 ofta automatiskt meningslösa, röriga undertexter, även när kommandot tydligt anger att man inte ska lägga till undertexter.

Att ta bort dessa undertexter är inte enkelt. Användare tvingas återskapa klippet, spendera "tokens" vilket innebär att spendera mer pengar på Google, eller använda externa verktyg för att ta bort undertexterna, eller trimma videon för att ta bort undertexterna.

video AI anh 1

Veo 3 producerar realistiska bilder och dialoger som matchar läpprörelser, men undertexterna är meningslösa. Foto: Lesswrong .

Josh Woodward, vice vd för Google Labs och Gemini, publicerade på X den 9 juni att Google hade utvecklat patchar för att minska spamproblemet. Men mer än en månad senare fortsätter användare att rapportera problemet på Google Labs Discord-kanal, vilket visar att det inte är lätt att åtgärda buggar i stora AI-modeller.

Precis som Googles tidigare modeller för AI-videoskapande är Veo 3 en betalmodell, med priser från 249,99 dollar per månad. För att skapa en 8-sekunders video anger användare en beskrivning i Flow, Gemini eller någon annan plattform. Varje klippskapande med Veo 3 kostar minst 20 AI-krediter, och användare kan fylla på med 25 dollar för 2 500 krediter.

Mona Weiss, en kommersiell regissör, ​​säger att det blir en betydande kostnad att återskapa filmmaterial för att ta bort undertexter. ”Om du skapar en scen med dialog med Veo3 kommer ungefär 40 % av resultatet att ha meningslösa undertexter som gör videon oanvändbar”, säger hon. ”Det kostar mycket pengar att få en scen du gillar, men det slutar med att den blir oanvändbar.”

video AI anh 2

Meningslösa undertexter är svåra att ta bort på Veo 3. Foto: Technology Review .

När Weiss rapporterade problemet till Google Labs via Discord i hopp om att få tillbaka sina bortkastade krediter, hänvisade supportteamet henne till företagets officiella supportavdelning. De erbjöd återbetalning för Veo 3-prenumerationsavgiften, men inte för krediterna. Weiss vägrade eftersom det skulle innebära att hon förlorade åtkomsten till modellen om hon accepterade återbetalningen.

Google Labs Discord-supportteamet uppgav att undertexter kan aktiveras automatiskt om röst upptäcks, och de arbetar med att åtgärda detta fel.

Problemet härrör från Googles tillvägagångssätt.

Anledningen till att Veo 3 automatiskt infogar undertexter härrör från de data som modellen tränades på.

Även om Google inte har släppt detaljer om de datakategorier som används för att träna sina modeller, inkluderar det sannolikt videor från plattformar som YouTube och TikTok, av vilka många innehåller undertexter. Dessa undertexter är inbäddade direkt i videorutorna, vilket gör dem svåra att ta bort innan de används som träningsdata, enligt Shuo Niu, forskare inom videodelningsplattformar och AI vid Clark University (Massachusetts, USA).

"Text-till-video-modeller tränas med hjälp av förstärkningsinlärning för att skapa innehåll som efterliknar människoskapade videor, och om dessa videor har undertexter kan modellen 'lära sig' att lägga till undertexter gör produkten mer lik en människoskapad video", förklarade han.

video AI anh 3

Veo 3 påverkades av modellträningsdata från YouTube och TikTok-videor. Bild: Mashable .

En talesperson för Google sa: ”Vi förbättrar ständigt våra möjligheter att skapa videor, särskilt när det gäller text, naturligt klingande röst och perfekt synkroniserat ljud. Vi uppmuntrar användare att försöka igen om de tycker att resultaten är inkonsekventa och ge oss feedback via gilla- eller ogilla-funktionen.”

Dessutom är anledningen till att denna modell ignorerar uppmaningar som "Inga undertexter" att negativa uttalanden (som instruerar AI:n att inte göra något) i allmänhet är mindre effektiva än bekräftande uppmaningar, enligt Tuhin Chakrabarty, forskare inom AI-system vid Stony Brook University.

För att helt lösa problemet måste Google undersöka varje bildruta i alla videor som används för att träna Veo 3, och sedan ta bort eller omnamnge videor med undertexter innan modellen tränas om. Detta kommer att ta veckor, tillade Chakrabarty.

Katerina Cizek, dokumentärfilmare och art director på MIT Open Documentary Lab, menar att det här problemet visar Googles vilja att släppa produkter som ännu inte är helt färdiga.

”Google behöver en seger”, konstaterade Cizek. ”De måste vara först med att släppa ett verktyg som kan skapa ljud som matchar läpprörelser. Och det är viktigare än att åtgärda problemet med undertexterna.”

Källa: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Kommentar (0)

Lämna en kommentar för att dela dina känslor!

I samma kategori

Av samma författare

Arv

Figur

Företag

Aktuella frågor

Politiskt system

Lokal

Produkt

Happy Vietnam
Familjer återförenas för att förbereda sig för det traditionella månnyåret.

Familjer återförenas för att förbereda sig för det traditionella månnyåret.

Det glada leendet hos ett barn från Central Highlands.

Det glada leendet hos ett barn från Central Highlands.

Vietnams färger

Vietnams färger