Marea problemă cu Veo 3

Acest model de inteligență artificială inserează automat subtitrări dezordonate și fără sens în videoclipuri la mai mult de o lună de la lansare. Această situație arată că Google este dispus să lanseze produse neterminate pentru a-și demonstra capacitățile de inteligență artificială.

ZNews•19/07/2025

Veo3 este cel mai recent model de inteligență artificială de la Google, lansat la sfârșitul lunii mai, care permite utilizatorilor să creeze videoclipuri pe baza comenzilor vocale. Acest model a atras atenția comunității de creatori de conținut, deoarece permite crearea de videoclipuri cu sunet și dialog, o caracteristică care nu era disponibilă în versiunile anterioare ale modelului Google, făcându-le astfel mai realiste.

Mulți utilizatori utilizează videoclipuri Veo 3, cu o durată de până la 8 secunde, pentru a crea reclame, videoclipuri ASMR, trailere de filme fantastice și interviuri stradale umoristice.

Regizorul nominalizat la Oscar, Darren Aronofsky, a folosit instrumentul pentru a crea un scurtmetraj numit Ancestra. La conferința de presă, Demis Hassabis, CEO al Google DeepMind, a comparat Veo 3 cu un pas „în afara erei filmului mut” în cinematografie.

Subtitrări „Persistente” de la Veo 3

Totuși, mulți utilizatori au constatat că acest instrument nu funcționează așa cum se aștepta. Atunci când creează clipuri cu dialoguri, Veo 3 inserează adesea automat subtitrări fără sens și amestecate, chiar și atunci când comanda specifică clar să nu se adauge subtitrări.

Eliminarea acestor subtitrări nu este simplă. Utilizatorii sunt obligați să recreeze clipul, cheltuind „tokenuri”, ceea ce înseamnă cheltuirea mai multor bani pe Google, sau să folosească instrumente externe pentru a elimina subtitrările, sau să decupeze videoclipul pentru a elimina subtitrările.

Veo 3 produce imagini realiste și dialoguri care se potrivesc cu mișcările buzelor, dar subtitrările sunt lipsite de sens. Foto: Lesswrong .

Josh Woodward, vicepreședinte al Google Labs și Gemini, a postat pe X pe 9 iunie că Google a dezvoltat patch-uri pentru a reduce problema spamului. Însă, după mai bine de o lună, utilizatorii continuă să raporteze această problemă pe canalul Discord al Google Labs, demonstrând că remedierea erorilor din modelele mari de inteligență artificială nu este ușoară.

La fel ca modelele anterioare de creare video cu inteligență artificială de la Google, Veo 3 este un model plătit, cu prețuri începând de la 249,99 USD pe lună. Pentru a crea un videoclip de 8 secunde, utilizatorii introduc o descriere în Flow, Gemini sau o altă platformă. Fiecare clip creat folosind Veo 3 costă cel puțin 20 de credite AI, iar utilizatorii pot încărca suma cu 25 USD pentru 2.500 de credite.

Mona Weiss, regizoare de reclame, spune că recrearea filmărilor pentru a elimina subtitrările devine o cheltuială semnificativă. „Dacă creezi o scenă cu dialoguri folosind Veo3, aproximativ 40% din rezultat va avea subtitrări fără sens, ceea ce va face videoclipul inutilizabil”, spune ea. „Costă mulți bani să obții o scenă care îți place, dar ajunge să fie inutilizabilă.”

S-ar putea să vă placă și

Unitatea de grăniceri Tam Chung își unește forțele pentru a reduce sărăcia informațională din zonele de frontieră.Ofițerii și soldații Stației de Grăniceri Tam Chung și-au inovat metodele de diseminare a informațiilor, aducând cunoștințele juridice mai aproape de comunitățile minorităților etnice folosind un limbaj ușor de înțeles, contribuind la reducerea sărăciei informaționale și la menținerea securității frontierelor.

Tehnologia de reciclare a bateriilor se extinde în China.VTV.vn - Confruntată cu valul de baterii pentru vehicule electrice care ajung la sfârșitul duratei lor de viață, China intensifică tehnologia și standardizarea pentru a-și dezvolta industria de reciclare, servind obiectivele sale de tranziție verde.

Dak Lak: Intensificarea eforturilor de reducere a sărăciei informaționale pentru a îmbunătăți indicele reformei administrative.Promovarea reducerii sărăciei informaționale la nivel local este una dintre principalele soluții ale provinciei Dak Lak, care vizează îmbunătățirea și consolidarea indicatorilor reformei administrative și a indicelui de satisfacție al populației față de serviciile agențiilor administrative de stat.

Subtitrările fără sens sunt dificil de eliminat pe Veo 3. Fotografie: Technology Review .

Când Weiss a raportat problema către Google Labs prin Discord, sperând să-și recupereze creditele pierdute, echipa de asistență a îndrumat-o către departamentul oficial de asistență al companiei. Aceștia i-au oferit o rambursare pentru taxa de abonament Veo 3, dar nu și pentru credite. Weiss a refuzat, deoarece acceptarea rambursării ar fi însemnat pierderea accesului la model.

Echipa de asistență Discord de la Google Labs a declarat că subtitrările ar putea fi activate automat dacă se detectează vocea și că lucrează la remedierea acestei erori.

Problema provine din abordarea Google.

Motivul pentru care Veo 3 inserează automat subtitrări provine din datele pe baza cărora a fost antrenat modelul.

Deși Google nu a publicat detalii despre categoriile de date utilizate pentru antrenarea modelelor sale, este probabil ca aceasta să includă videoclipuri de pe platforme precum YouTube și TikTok, multe dintre ele conținând subtitrări. Aceste subtitrări sunt încorporate direct în cadrele video, ceea ce face dificilă eliminarea lor înainte de a fi utilizate ca date de antrenament, potrivit lui Shuo Niu, cercetător în domeniul platformelor de partajare video și al inteligenței artificiale la Universitatea Clark (Massachusetts, SUA).

„Modelele text-video sunt antrenate folosind învățarea prin consolidare pentru a crea conținut care imită videoclipurile realizate de oameni, iar dacă aceste videoclipuri au subtitrări, modelul poate «învăța» că adăugarea de subtitrări face ca produsul să semene mai mult cu un videoclip realizat de oameni”, a explicat el.

Veo 3 a fost afectat de datele de antrenament ale modelului din videoclipurile de pe YouTube și TikTok. Imagine: Mashable .

Un purtător de cuvânt al Google a declarat: „Îmbunătățim constant capacitățile noastre de creare video, în special în ceea ce privește textul, vocea naturală și sunetul perfect sincronizat. Încurajăm utilizatorii să reîncerce comanda dacă constată că rezultatele sunt inconsistente și să ne ofere feedback prin intermediul funcției de apreciere sau nu.”

Statele Unite ale Americii - Vietnam: Nu rata

Vietnamul încurajează companiile americane să extindă investițiile în tehnologie avansată.În dimineața zilei de 26 iunie, la sediul Guvernului, viceprim-ministrul Ho Quoc Dung l-a primit pe domnul Jeff Place, directorul lanțului de aprovizionare al Coherent Group (SUA). În timpul întâlnirii, viceprim-ministrul a afirmat că Vietnamul încurajează companiile americane să își extindă investițiile, în special în industria high-tech, inovare și semiconductori.

Încurajați companiile americane să extindă investițiile în sectoarele de înaltă tehnologie.Viceprim-ministrul Ho Quoc Dung a declarat că Vietnamul salută continuarea extinderii operațiunilor companiilor americane în Vietnam, în special în industriile de înaltă tehnologie și sectoarele cu valoare adăugată ridicată.

Vietnamul și Statele Unite își consolidează cooperarea în abordarea consecințelor războiului.VTV.vn - Pe 22 iunie, secretarul general și președintele To Lam l-a primit pe secretarul interimar al Marinei SUA, Hung Cao.

În plus, motivul pentru care acest model ignoră solicitări precum „Fără subtitrări” este acela că afirmațiile negative (care instruiesc IA să nu facă ceva) sunt în general mai puțin eficiente decât solicitările afirmative, potrivit lui Tuhin Chakrabarty, cercetător în sisteme de IA la Universitatea Stony Brook.

Pentru a rezolva complet problema, Google va trebui să examineze fiecare cadru al tuturor videoclipurilor folosite pentru antrenarea modelului Veo 3, apoi să elimine sau să redenumească videoclipurile cu subtitrări înainte de a reantrena modelul. Acest lucru va dura săptămâni, a adăugat Chakrabarty.

Katerina Cizek, regizoare de documentare și directoare artistică la MIT Open Documentary Lab, susține că această problemă demonstrează disponibilitatea Google de a lansa produse care nu sunt încă complet finalizate.

„Google are nevoie de o victorie”, a declarat Cizek. „Trebuie să fie primii care lansează un instrument care poate crea sunet care se potrivește cu mișcările buzelor. Și asta e mai important decât rezolvarea problemei cu subtitrarea.”

Sursă: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html