Il problema principale di Veo 3

Questo modello di intelligenza artificiale sta inserendo automaticamente sottotitoli disordinati e privi di significato nei video, a più di un mese dal suo lancio. Questa situazione dimostra che Google è disposta a rilasciare prodotti incompleti per dimostrare le proprie capacità in materia di intelligenza artificiale.

ZNews•19/07/2025

Veo3 è l'ultimo modello di intelligenza artificiale di Google, lanciato a fine maggio, che consente agli utenti di creare video tramite comandi vocali. Questo modello ha attirato l'attenzione della comunità dei creatori di contenuti perché permette di realizzare video con audio e dialoghi, una funzionalità non disponibile nelle versioni precedenti del modello di Google, rendendoli così più realistici.

Molti utenti utilizzano le clip video di Veo 3, della durata massima di 8 secondi, per creare spot pubblicitari, video ASMR, trailer di film fantasy e divertenti interviste di strada.

Il regista candidato all'Oscar Darren Aronofsky ha utilizzato lo strumento per creare un cortometraggio intitolato Ancestra. Durante la conferenza stampa, il CEO di Google DeepMind, Demis Hassabis, ha paragonato Veo 3 a un passo "fuori dall'era del cinema muto" nella storia del cinema.

Sottotitoli "persistenti" da Veo 3

Tuttavia, molti utenti hanno riscontrato che questo strumento non funziona come previsto. Quando si creano clip con dialoghi, Veo 3 spesso inserisce automaticamente sottotitoli confusi e privi di senso, anche quando il comando specifica chiaramente di non aggiungerli.

Rimuovere questi sottotitoli non è semplice. Gli utenti sono costretti a ricreare il video, spendendo "token" che significa spendere altri soldi su Google, oppure a utilizzare strumenti esterni per rimuovere i sottotitoli, o ancora a tagliare il video per eliminarli.

Veo 3 offre immagini realistiche e dialoghi sincronizzati con il labiale, ma i sottotitoli sono privi di significato. Foto: Lesswrong .

Il 9 giugno, Josh Woodward, vicepresidente di Google Labs e Gemini, ha pubblicato su X un post in cui affermava che Google aveva sviluppato delle patch per ridurre il problema dello spam. Tuttavia, a più di un mese di distanza, gli utenti continuano a segnalare questo problema sul canale Discord di Google Labs, a dimostrazione di quanto sia difficile correggere i bug nei modelli di intelligenza artificiale di grandi dimensioni.

Come i precedenti modelli di creazione video basati sull'intelligenza artificiale di Google, Veo 3 è un servizio a pagamento, con un costo a partire da 249,99 dollari al mese. Per creare un video di 8 secondi, gli utenti devono inserire una descrizione in Flow, Gemini o un'altra piattaforma. Ogni clip creata con Veo 3 costa almeno 20 crediti AI, e gli utenti possono ricaricare il proprio abbonamento per 25 dollari , ottenendo così 2.500 crediti aggiuntivi.

Mona Weiss, regista di spot pubblicitari, afferma che ricreare le riprese per rimuovere i sottotitoli sta diventando una spesa considerevole. "Se si crea una scena con dialoghi utilizzando Veo3, circa il 40% del risultato finale avrà sottotitoli senza senso, rendendo il video inutilizzabile", spiega. "Costa un sacco di soldi ottenere una scena che ti piace, ma alla fine risulta inutilizzabile."

Il problema deriva dall'approccio di Google.

Il motivo per cui Veo 3 inserisce automaticamente i sottotitoli deriva dai dati su cui è stato addestrato il modello.

Sebbene Google non abbia rilasciato dettagli sulle categorie di dati utilizzate per addestrare i suoi modelli, è probabile che includano video provenienti da piattaforme come YouTube e TikTok, molti dei quali contengono sottotitoli. Questi sottotitoli sono incorporati direttamente nei fotogrammi video, il che li rende difficili da rimuovere prima di essere utilizzati come dati di addestramento, secondo Shuo Niu, ricercatore di piattaforme di condivisione video e intelligenza artificiale presso la Clark University (Massachusetts, USA).

"I modelli di conversione da testo a video vengono addestrati utilizzando l'apprendimento per rinforzo per creare contenuti che imitano i video realizzati da esseri umani e, se questi video hanno i sottotitoli, il modello può 'imparare' che l'aggiunta di sottotitoli rende il prodotto più simile a un video realizzato da esseri umani", ha spiegato.

Veo 3 è stato influenzato dai dati di addestramento del modello provenienti da video di YouTube e TikTok. Immagine: Mashable .

Un portavoce di Google ha dichiarato: "Miglioriamo costantemente le nostre funzionalità di creazione video, soprattutto per quanto riguarda il testo, la naturalezza della voce e la perfetta sincronizzazione audio. Invitiamo gli utenti a riprovare il comando se riscontrano risultati incoerenti e a fornirci un feedback tramite la funzione "Mi piace" o "Non mi piace"."

Stati Uniti - Vietnam: Non perdere

Il Vietnam incoraggia le imprese statunitensi ad ampliare gli investimenti nel settore dell'alta tecnologia.La mattina del 26 giugno, presso la sede del governo, il vice primo ministro Ho Quoc Dung ha ricevuto il signor Jeff Place, direttore della catena di approvvigionamento di Coherent Group (USA). Durante l'incontro, il vice primo ministro ha ribadito che il Vietnam incoraggia le imprese statunitensi ad espandere gli investimenti, in particolare nei settori dell'alta tecnologia, dell'innovazione e dei semiconduttori.

Incoraggiare le imprese statunitensi ad espandere gli investimenti nei settori ad alta tecnologia.Il vice primo ministro Ho Quoc Dung ha affermato che il Vietnam accoglie con favore le imprese statunitensi che desiderano continuare ad espandere le proprie attività nel Paese, in particolare nei settori ad alta tecnologia e in quelli ad alto valore aggiunto.

Il Vietnam e gli Stati Uniti rafforzano la cooperazione per affrontare le conseguenze della guerra.VTV.vn - Il 22 giugno, il Segretario Generale e Presidente To Lam ha ricevuto il Segretario ad interim della Marina degli Stati Uniti, Hung Cao.

Inoltre, il motivo per cui questo modello ignora suggerimenti come "Niente sottotitoli" è che le affermazioni negative (che indicano all'IA di non fare qualcosa) sono generalmente meno efficaci dei suggerimenti affermativi, secondo Tuhin Chakrabarty, ricercatore di sistemi di intelligenza artificiale presso la Stony Brook University.

Per risolvere completamente il problema, Google dovrà esaminare ogni singolo fotogramma di tutti i video utilizzati per addestrare Veo 3, quindi rimuovere o rietichettare i video con i sottotitoli prima di riaddestrare il modello. Questo richiederà settimane, ha aggiunto Chakrabarty.

Katerina Cizek, regista di documentari e direttrice artistica presso il MIT Open Documentary Lab, sostiene che questo problema dimostra la volontà di Google di rilasciare prodotti non ancora completamente finiti.

"Google ha bisogno di una vittoria", ha affermato Cizek. "Devono essere i primi a rilasciare uno strumento in grado di creare un audio sincronizzato con il movimento delle labbra. E questo è più importante che risolvere il problema dei sottotitoli."

Fonte: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html