
Veo3 è l'ultimo modello di intelligenza artificiale di Google, lanciato a fine maggio, che consente agli utenti di creare video tramite comandi vocali. Questo modello ha attirato l'attenzione della comunità dei creatori di contenuti perché permette di realizzare video con audio e dialoghi, una funzionalità non disponibile nelle versioni precedenti del modello di Google, rendendoli così più realistici.
Molti utenti utilizzano le clip video di Veo 3, della durata massima di 8 secondi, per creare spot pubblicitari, video ASMR, trailer di film fantasy e divertenti interviste di strada.
Il regista candidato all'Oscar Darren Aronofsky ha utilizzato lo strumento per creare un cortometraggio intitolato Ancestra. Durante la conferenza stampa, il CEO di Google DeepMind, Demis Hassabis, ha paragonato Veo 3 a un passo "fuori dall'era del cinema muto" nella storia del cinema.
Sottotitoli "persistenti" da Veo 3
Tuttavia, molti utenti hanno riscontrato che questo strumento non funziona come previsto. Quando si creano clip con dialoghi, Veo 3 spesso inserisce automaticamente sottotitoli confusi e privi di senso, anche quando il comando specifica chiaramente di non aggiungerli.
Rimuovere questi sottotitoli non è semplice. Gli utenti sono costretti a ricreare il video, spendendo "token" che significa spendere altri soldi su Google, oppure a utilizzare strumenti esterni per rimuovere i sottotitoli, o ancora a tagliare il video per eliminarli.
![]() |
Veo 3 offre immagini realistiche e dialoghi sincronizzati con il labiale, ma i sottotitoli sono privi di significato. Foto: Lesswrong . |
Il 9 giugno, Josh Woodward, vicepresidente di Google Labs e Gemini, ha pubblicato su X un post in cui affermava che Google aveva sviluppato delle patch per ridurre il problema dello spam. Tuttavia, a più di un mese di distanza, gli utenti continuano a segnalare questo problema sul canale Discord di Google Labs, a dimostrazione di quanto sia difficile correggere i bug nei modelli di intelligenza artificiale di grandi dimensioni.
Come i precedenti modelli di creazione video basati sull'intelligenza artificiale di Google, Veo 3 è un servizio a pagamento, con un costo a partire da 249,99 dollari al mese. Per creare un video di 8 secondi, gli utenti devono inserire una descrizione in Flow, Gemini o un'altra piattaforma. Ogni clip creata con Veo 3 costa almeno 20 crediti AI, e gli utenti possono ricaricare il proprio abbonamento per 25 dollari , ottenendo così 2.500 crediti aggiuntivi.
Mona Weiss, regista di spot pubblicitari, afferma che ricreare le riprese per rimuovere i sottotitoli sta diventando una spesa considerevole. "Se si crea una scena con dialoghi utilizzando Veo3, circa il 40% del risultato finale avrà sottotitoli senza senso, rendendo il video inutilizzabile", spiega. "Costa un sacco di soldi ottenere una scena che ti piace, ma alla fine risulta inutilizzabile."
![]() |
Sul Veo 3 è difficile rimuovere i sottotitoli privi di significato. Foto: Technology Review . |
Quando Weiss ha segnalato il problema a Google Labs tramite Discord, sperando di recuperare i crediti sprecati, il team di supporto l'ha indirizzata al reparto di supporto ufficiale dell'azienda. Le è stato offerto un rimborso per la quota di abbonamento a Veo 3, ma non per i crediti. Weiss ha rifiutato perché accettare il rimborso avrebbe significato perdere l'accesso al modello.
Il team di supporto di Google Labs su Discord ha dichiarato che i sottotitoli potrebbero attivarsi automaticamente se viene rilevata la voce e che stanno lavorando per risolvere questo bug.
Il problema deriva dall'approccio di Google.
Il motivo per cui Veo 3 inserisce automaticamente i sottotitoli deriva dai dati su cui è stato addestrato il modello.
Sebbene Google non abbia rilasciato dettagli sulle categorie di dati utilizzate per addestrare i suoi modelli, è probabile che includano video provenienti da piattaforme come YouTube e TikTok, molti dei quali contengono sottotitoli. Questi sottotitoli sono incorporati direttamente nei fotogrammi video, il che li rende difficili da rimuovere prima di essere utilizzati come dati di addestramento, secondo Shuo Niu, ricercatore di piattaforme di condivisione video e intelligenza artificiale presso la Clark University (Massachusetts, USA).
"I modelli di conversione da testo a video vengono addestrati utilizzando l'apprendimento per rinforzo per creare contenuti che imitano i video realizzati da esseri umani e, se questi video hanno i sottotitoli, il modello può 'imparare' che l'aggiunta di sottotitoli rende il prodotto più simile a un video realizzato da esseri umani", ha spiegato.
![]() |
Veo 3 è stato influenzato dai dati di addestramento del modello provenienti da video di YouTube e TikTok. Immagine: Mashable . |
Un portavoce di Google ha dichiarato: "Miglioriamo costantemente le nostre funzionalità di creazione video, soprattutto per quanto riguarda il testo, la naturalezza della voce e la perfetta sincronizzazione audio. Invitiamo gli utenti a riprovare il comando se riscontrano risultati incoerenti e a fornirci un feedback tramite la funzione "Mi piace" o "Non mi piace"."
Inoltre, il motivo per cui questo modello ignora suggerimenti come "Niente sottotitoli" è che le affermazioni negative (che indicano all'IA di non fare qualcosa) sono generalmente meno efficaci dei suggerimenti affermativi, secondo Tuhin Chakrabarty, ricercatore di sistemi di intelligenza artificiale presso la Stony Brook University.
Per risolvere completamente il problema, Google dovrà esaminare ogni singolo fotogramma di tutti i video utilizzati per addestrare Veo 3, quindi rimuovere o rietichettare i video con i sottotitoli prima di riaddestrare il modello. Questo richiederà settimane, ha aggiunto Chakrabarty.
Katerina Cizek, regista di documentari e direttrice artistica presso il MIT Open Documentary Lab, sostiene che questo problema dimostra la volontà di Google di rilasciare prodotti non ancora completamente finiti.
"Google ha bisogno di una vittoria", ha affermato Cizek. "Devono essere i primi a rilasciare uno strumento in grado di creare un audio sincronizzato con il movimento delle labbra. E questo è più importante che risolvere il problema dei sottotitoli."
Fonte: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html













