
Veo3 on Googlen uusin tekoälymalli, joka lanseerattiin toukokuun lopulla. Sen avulla käyttäjät voivat luoda videoita äänikomentojen perusteella. Tämä malli on herättänyt sisällöntuotantoyhteisön huomion, sillä se mahdollistaa videoiden luomisen äänellä ja dialogilla. Tätä ominaisuutta ei ollut saatavilla Googlen mallin aiemmissa versioissa, mikä tekee niistä realistisempia.
Monet käyttäjät käyttävät jopa 8 sekunnin pituisia Veo 3 -videoleikkeitä mainosten, ASMR-videoiden, fantasiaelokuvien trailerien ja humorististen katuhaastattelujen luomiseen.
Oscar-ehdokkaana ollut ohjaaja Darren Aronofsky käytti työkalua luodakseen lyhytelokuvan nimeltä Ancestra. Lehdistötilaisuudessa Google DeepMindin toimitusjohtaja Demis Hassabis vertasi Veo 3:a askeleeseen "ulos mykkäelokuvien aikakaudesta" elokuvateattereissa.
"Persistent"-tekstitykset Veo 3:sta
Monet käyttäjät ovat kuitenkin huomanneet, että tämä työkalu ei toimi odotetulla tavalla. Kun luodaan dialogia sisältäviä leikkeitä, Veo 3 lisää usein automaattisesti merkityksettömiä, sekavia tekstityksiä, vaikka komennossa selvästi ilmoitetaan, ettei tekstityksiä tule lisätä.
Näiden tekstitysten poistaminen ei ole yksinkertaista. Käyttäjät joutuvat luomaan videoleikkeen uudelleen käyttämällä "tokeneita", mikä tarkoittaa enemmän rahaa Googlessa, tai käyttämään ulkoisia työkaluja tekstitysten poistamiseen tai leikkaamaan videota tekstitysten poistamiseksi.
![]() |
Veo 3 tuottaa realistisia visuaaleja ja huulten liikkeitä vastaavaa dialogia, mutta tekstitykset ovat merkityksettömiä. Kuva: Lesswrong . |
Google Labsin ja Geminin varatoimitusjohtaja Josh Woodward julkaisi X:ssä 9. kesäkuuta, että Google oli kehittänyt korjauksia roskapostiongelman vähentämiseksi. Mutta yli kuukausi myöhemmin käyttäjät jatkavat ongelman raportointia Google Labsin Discord-kanavalla, mikä osoittaa, että virheiden korjaaminen suurissa tekoälymalleissa ei ole helppoa.
Kuten Googlen aiemmat tekoälyllä toimivat videoidenluontimallit, Veo 3 on maksullinen malli, jonka lähtöhinta on 249,99 dollaria kuukaudessa. Kahdeksan sekunnin videon luomiseksi käyttäjien on syötettävä kuvaus Flow'hun, Geminiin tai muuhun alustaan. Jokainen Veo 3:lla luotu videoleike maksaa vähintään 20 tekoälykrediittiä, ja käyttäjät voivat ladata 25 dollarilla 2 500 krediitin edestä.
Kaupallinen ohjaaja Mona Weiss sanoo, että tekstitysten poistaminen materiaalista on tulossa merkittäväksi kuluksi. ”Jos luot kohtauksen, jossa on dialogia, Veo3:lla, noin 40 %:ssa tuotoksesta on merkityksettömiä tekstityksiä, jotka tekevät videosta käyttökelvottoman”, hän sanoo. ”Hyvän kohtauksen saaminen maksaa paljon, mutta se on lopulta käyttökelvoton.”
![]() |
Merkityksettömiä tekstityksiä on vaikea poistaa Veo 3:ssa. Kuva: Technology Review . |
Kun Weiss ilmoitti ongelmasta Google Labsille Discordin kautta toivoen saavansa hukkaan heitetyt krediittinsä takaisin, tukitiimi ohjasi hänet yrityksen viralliselle tukiosastolle. He tarjosivat hyvitystä Veo 3 -tilausmaksusta, mutta eivät krediiteistä. Weiss kieltäytyi, koska hyvityksen hyväksyminen tarkoittaisi mallin käyttöoikeuden menettämistä.
Google Labsin Discord-tukitiimi ilmoitti, että tekstitykset saattavat aktivoitua automaattisesti, jos ääntä havaitaan, ja he työskentelevät tämän virheen korjaamiseksi.
Ongelma johtuu Googlen lähestymistavasta.
Syy siihen, miksi Veo 3 lisää tekstitykset automaattisesti, johtuu datasta, jonka pohjalta mallia on koulutettu.
Vaikka Google ei ole julkaissut tietoja malliensa kouluttamiseen käytetyistä dataluokista, se todennäköisesti sisältää videoita alustoilta, kuten YouTube ja TikTok, joista monissa on tekstityksiä. Nämä tekstitykset on upotettu suoraan videoruutuihin, minkä vuoksi niitä on vaikea poistaa ennen kuin niitä käytetään koulutusdatana, kertoo Shuo Niu, videonjakoalustojen ja tekoälyn tutkija Clarkin yliopistosta (Massachusetts, Yhdysvallat).
"Tekstistä videoksi -malleja koulutetaan vahvistusoppimisen avulla luomaan sisältöä, joka jäljittelee ihmisen tekemiä videoita, ja jos näissä videoissa on tekstitykset, malli voi 'oppia', että tekstitysten lisääminen tekee tuotteesta enemmän ihmisen tekemän videon kaltaisen", hän selitti.
![]() |
YouTuben ja TikTok-videoiden mallinkoulutusdata vaikutti Veo 3:een. Kuva: Mashable . |
Googlen tiedottaja sanoi: ”Parannamme jatkuvasti videoiden luontikykyjämme, erityisesti tekstin, luonnolliselta kuulostavan äänen ja täydellisesti synkronoidun äänen osalta. Kannustamme käyttäjiä yrittämään komentoa uudelleen, jos he kokevat tulokset epäjohdonmukaisiksi, ja antamaan meille palautetta tykkää- tai ei-tykkää-toiminnon kautta.”
Lisäksi syy siihen, miksi tämä malli jättää huomiotta kehotteet, kuten "Ei tekstityksiä", on se, että negatiiviset lauseet (jotka kehottavat tekoälyä olemaan tekemättä jotain) ovat yleensä vähemmän tehokkaita kuin myöntävät kehotteet, sanoo Stony Brookin yliopiston tekoälyjärjestelmien tutkija Tuhin Chakrabarty.
Ongelman täydelliseksi ratkaisemiseksi Googlen on tutkittava jokainen ruutu kaikista Veo 3:n kouluttamiseen käytetyistä videoista ja sitten poistettava tai nimettävä uudelleen tekstitetyt videot ennen mallin uudelleenkoulutusta. Tämä vie viikkoja, Chakrabarty lisäsi.
Katerina Cizek, dokumenttielokuvantekijä ja MIT Open Documentary Labin taiteellinen johtaja, väittää, että tämä numero osoittaa Googlen halukkuutta julkaista tuotteita, jotka eivät ole vielä täysin valmiita.
”Google tarvitsee voiton”, Cizek totesi. ”Heidän täytyy olla ensimmäinen, joka julkaisee työkalun, joka pystyy luomaan ääntä, joka vastaa huulten liikkeitä. Ja se on tärkeämpää kuin tekstitysongelman korjaaminen.”
Lähde: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html












