
Veo3 este cel mai recent model de inteligență artificială de la Google, lansat la sfârșitul lunii mai, care permite utilizatorilor să creeze videoclipuri pe baza comenzilor vocale. Acest model a atras atenția comunității de creatori de conținut, deoarece permite crearea de videoclipuri cu sunet și dialog, o caracteristică care nu era disponibilă în versiunile anterioare ale modelului Google, făcându-le astfel mai realiste.
Mulți utilizatori utilizează videoclipuri Veo 3, cu o durată de până la 8 secunde, pentru a crea reclame, videoclipuri ASMR, trailere de filme fantastice și interviuri stradale umoristice.
Regizorul nominalizat la Oscar, Darren Aronofsky, a folosit instrumentul pentru a crea un scurtmetraj numit Ancestra. La conferința de presă, Demis Hassabis, CEO al Google DeepMind, a comparat Veo 3 cu un pas „în afara erei filmului mut” în cinematografie.
Subtitrări „Persistente” de la Veo 3
Totuși, mulți utilizatori au constatat că acest instrument nu funcționează așa cum se aștepta. Atunci când se creează clipuri cu dialoguri, Veo 3 inserează adesea automat subtitrări fără sens și amestecate, chiar și atunci când comanda specifică clar să nu se adauge subtitrări.
Eliminarea acestor subtitrări nu este simplă. Utilizatorii sunt obligați să recreeze clipul, cheltuind „tokenuri”, ceea ce înseamnă cheltuirea mai multor bani pe Google, sau să folosească instrumente externe pentru a elimina subtitrările, sau să decupeze videoclipul pentru a elimina subtitrările.
![]() |
Veo 3 produce imagini realiste și dialoguri care se potrivesc cu mișcările buzelor, dar subtitrările sunt lipsite de sens. Foto: Lesswrong . |
Josh Woodward, vicepreședinte al Google Labs și Gemini, a postat pe X pe 9 iunie că Google a dezvoltat patch-uri pentru a reduce problema spamului. Însă, după mai bine de o lună, utilizatorii continuă să raporteze această problemă pe canalul Discord al Google Labs, demonstrând că remedierea erorilor din modelele mari de inteligență artificială nu este ușoară.
La fel ca modelele anterioare de creare video cu inteligență artificială de la Google, Veo 3 este un model plătit, cu prețuri începând de la 249,99 USD pe lună. Pentru a crea un videoclip de 8 secunde, utilizatorii introduc o descriere în Flow, Gemini sau o altă platformă. Fiecare clip creat folosind Veo 3 costă cel puțin 20 de credite AI, iar utilizatorii pot încărca suma cu 25 USD pentru 2.500 de credite.
Mona Weiss, regizoare de reclame, spune că recrearea filmărilor pentru a elimina subtitrările devine o cheltuială semnificativă. „Dacă creezi o scenă cu dialoguri folosind Veo3, aproximativ 40% din rezultat va avea subtitrări fără sens, ceea ce va face videoclipul inutilizabil”, spune ea. „Costă mulți bani să obții o scenă care îți place, dar ajunge să fie inutilizabilă.”
![]() |
Subtitrările fără sens sunt dificil de eliminat pe Veo 3. Fotografie: Technology Review . |
Când Weiss a raportat problema către Google Labs prin Discord, sperând să-și recupereze creditele pierdute, echipa de asistență a îndrumat-o către departamentul oficial de asistență al companiei. Aceștia i-au oferit o rambursare pentru taxa de abonament Veo 3, dar nu și pentru credite. Weiss a refuzat, deoarece acceptarea rambursării ar fi însemnat pierderea accesului la model.
Echipa de asistență Discord de la Google Labs a declarat că subtitrările ar putea fi activate automat dacă se detectează vocea și că lucrează la remedierea acestei erori.
Problema provine din abordarea Google.
Motivul pentru care Veo 3 inserează automat subtitrări provine din datele pe baza cărora a fost antrenat modelul.
Deși Google nu a publicat detalii despre categoriile de date utilizate pentru antrenarea modelelor sale, este probabil ca aceasta să includă videoclipuri de pe platforme precum YouTube și TikTok, multe dintre ele conținând subtitrări. Aceste subtitrări sunt încorporate direct în cadrele video, ceea ce face dificilă eliminarea lor înainte de a fi utilizate ca date de antrenament, potrivit lui Shuo Niu, cercetător în domeniul platformelor de partajare video și al inteligenței artificiale la Universitatea Clark (Massachusetts, SUA).
„Modelele text-video sunt antrenate folosind învățarea prin consolidare pentru a crea conținut care imită videoclipurile realizate de oameni, iar dacă aceste videoclipuri au subtitrări, modelul poate «învăța» că adăugarea de subtitrări face ca produsul să semene mai mult cu un videoclip realizat de oameni”, a explicat el.
![]() |
Veo 3 a fost afectat de datele de antrenament ale modelului din videoclipurile de pe YouTube și TikTok. Imagine: Mashable . |
Un purtător de cuvânt al Google a declarat: „Îmbunătățim constant capacitățile noastre de creare video, în special în ceea ce privește textul, vocea naturală și sunetul perfect sincronizat. Încurajăm utilizatorii să reîncerce comanda dacă constată că rezultatele sunt inconsistente și să ne ofere feedback prin intermediul funcției de apreciere sau nu.”
În plus, motivul pentru care acest model ignoră solicitări precum „Fără subtitrări” este acela că afirmațiile negative (care instruiesc IA să nu facă ceva) sunt în general mai puțin eficiente decât solicitările afirmative, potrivit lui Tuhin Chakrabarty, cercetător în sisteme de IA la Universitatea Stony Brook.
Pentru a rezolva complet problema, Google va trebui să examineze fiecare cadru al tuturor videoclipurilor folosite pentru antrenarea modelului Veo 3, apoi să elimine sau să redenumească videoclipurile cu subtitrări înainte de a reantrena modelul. Acest lucru va dura săptămâni, a adăugat Chakrabarty.
Katerina Cizek, regizoare de documentare și directoare artistică la MIT Open Documentary Lab, susține că această problemă demonstrează disponibilitatea Google de a lansa produse care nu sunt încă complet finalizate.
„Google are nevoie de o victorie”, a declarat Cizek. „Trebuie să fie primii care lansează un instrument care poate crea sunet care se potrivește cu mișcările buzelor. Și asta e mai important decât rezolvarea problemei cu subtitrarea.”
Sursă: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Comentariu (0)