
Veo3 er Googles nyeste AI-modell, lansert i slutten av mai, og lar brukere lage videoer basert på talekommandoer. Denne modellen har fått oppmerksomhet fra innholdsskapingsmiljøet ettersom den tillater opprettelse av videoer med lyd og dialog, en funksjon som ikke var tilgjengelig i tidligere versjoner av Googles modell, og dermed gjør dem mer realistiske.
Mange brukere bruker Veo 3-videoklipp, opptil 8 sekunder lange, til å lage reklamer, ASMR-videoer, fantasy-filmtrailere og humoristiske gateintervjuer.
Den Oscar-nominerte regissøren Darren Aronofsky brukte verktøyet til å lage en kortfilm kalt Ancestra. På pressekonferansen sammenlignet Google DeepMind-sjef Demis Hassabis Veo 3 med et steg «ut av stumfilmæraen» innen kino.
"Vedvarende" undertekster fra Veo 3
Mange brukere har imidlertid oppdaget at dette verktøyet ikke fungerer som forventet. Når man lager klipp med dialog, setter Veo 3 ofte automatisk inn meningsløse, rotete undertekster, selv når kommandoen tydelig sier at man ikke skal legge til undertekster.
Det er ikke enkelt å fjerne disse undertekstene. Brukere blir tvunget til å gjenskape klippet, bruke «tokens» som betyr å bruke mer penger på Google, eller bruke eksterne verktøy for å fjerne undertekstene, eller trimme videoen for å fjerne undertekstene.
![]() |
Veo 3 produserer realistisk grafikk og dialog som matcher leppebevegelser, men undertekstene er meningsløse. Foto: Lesswrong . |
Josh Woodward, visepresident i Google Labs og Gemini, publiserte på X 9. juni at Google hadde utviklet oppdateringer for å redusere spamproblemet. Men mer enn en måned senere fortsetter brukere å rapportere dette problemet på Google Labs' Discord-kanal, noe som viser at det ikke er lett å fikse feil i store AI-modeller.
I likhet med Googles tidligere modeller for AI-videoproduksjon er Veo 3 en betalt modell, som starter på 249,99 dollar per måned. For å lage en 8-sekunders video, skriver brukerne inn en beskrivelse i Flow, Gemini eller en annen plattform. Hver klippproduksjon med Veo 3 koster minst 20 AI-kreditter, og brukere kan fylle på med 25 dollar for 2500 kreditter.
Mona Weiss, en kommersiell direktør, sier at det å gjenskape opptak for å fjerne undertekster blir en betydelig utgift. «Hvis du lager en scene med dialog ved hjelp av Veo3, vil omtrent 40 % av resultatet ha meningsløse undertekster som gjør videoen ubrukelig», sier hun. «Det koster mye penger å få en scene du liker, men den ender opp med å være ubrukelig.»
![]() |
Meningsløse undertekster er vanskelige å fjerne på Veo 3. Foto: Technology Review . |
Da Weiss rapporterte problemet til Google Labs via Discord i håp om å få tilbake de bortkastede kredittene sine, henviste supportteamet henne til selskapets offisielle supportavdeling. De tilbød refusjon for Veo 3-abonnementsavgiften, men ikke for kredittene. Weiss nektet fordi det å godta refusjonen ville bety å miste tilgangen til modellen.
Google Labs Discord-supportteamet uttalte at undertekster kan aktiveres automatisk hvis stemme oppdages, og de jobber med å fikse denne feilen.
Problemet stammer fra Googles tilnærming.
Grunnen til at Veo 3 automatisk setter inn undertekster stammer fra dataene modellen ble trent på.
Selv om Google ikke har gitt ut detaljer om datakategoriene som brukes til å trene modellene sine, inkluderer den sannsynligvis videoer fra plattformer som YouTube og TikTok, hvorav mange inneholder undertekster. Disse undertekstene er innebygd direkte i videobildene, noe som gjør dem vanskelige å fjerne før de brukes som treningsdata, ifølge Shuo Niu, en forsker på videodelingsplattformer og AI ved Clark University (Massachusetts, USA).
«Tekst-til-video-modeller trenes ved hjelp av forsterkningslæring for å lage innhold som etterligner menneskeskapte videoer, og hvis disse videoene har undertekster, kan modellen «lære» at det å legge til undertekster gjør produktet mer som en menneskeskapt video», forklarte han.
![]() |
Veo 3 ble påvirket av modelltreningsdata fra YouTube og TikTok-videoer. Bilde: Mashable . |
En talsperson for Google sa: «Vi forbedrer stadig videoproduksjonsmulighetene våre, spesielt når det gjelder tekst, naturlig stemme og perfekt synkronisert lyd. Vi oppfordrer brukere til å prøve kommandoen på nytt hvis de synes resultatene er inkonsekvente, og gi oss tilbakemeldinger gjennom liker- eller mislikfunksjonen.»
Videre er grunnen til at denne modellen ignorerer spørsmål som «Ingen undertekster» fordi negative utsagn (som instruerer AI-en til ikke å gjøre noe) generelt er mindre effektive enn bekreftende spørsmål, ifølge Tuhin Chakrabarty, en forsker i AI-systemer ved Stony Brook University.
For å løse problemet fullstendig, må Google undersøke hver eneste ramme i alle videoene som brukes til å trene Veo 3, og deretter fjerne eller endre navn på videoer med undertekster før modellen trenes på nytt. Dette vil ta uker, la Chakrabarty til.
Katerina Cizek, dokumentarfilmskaper og kunstdirektør ved MIT Open Documentary Lab, hevder at dette problemet viser Googles vilje til å gi ut produkter som ennå ikke er helt ferdige.
«Google trenger en seier», uttalte Cizek. «De må være de første til å lansere et verktøy som kan lage lyd som matcher leppebevegelser. Og det er viktigere enn å fikse problemet med undertekster.»
Kilde: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Kommentar (0)