Vietnam.vn - Nền tảng quảng bá Việt Nam

Le gros problème de Veo 3

Ce modèle d’IA insère automatiquement du charabia dans les vidéos plus d’un mois après son lancement, montrant que Google est prêt à publier des produits inachevés pour démontrer ses capacités d’IA.

ZNewsZNews19/07/2025

Veo3 est le dernier modèle d'IA de Google, lancé fin mai, qui permet de générer des vidéos à partir de commandes. Ce modèle a attiré l'attention de la communauté des créateurs de contenu car il permet de créer des vidéos avec son et dialogues, une fonctionnalité absente de la version précédente de Google, ce qui le rend plus réaliste.

De nombreux utilisateurs utilisent les vidéos Veo 3, d'une durée maximale de 8 secondes, pour créer des publicités, des vidéos ASMR, des bandes-annonces de films fantastiques et des interviews de rue humoristiques.

Le réalisateur nominé aux Oscars Darren Aronofsky a utilisé cet outil pour créer un court-métrage intitulé Ancestra. Lors d'une conférence de presse, Demis Hassabis, PDG de Google DeepMind, a comparé Veo 3 à une rupture avec l'ère du cinéma muet.

Sous-titres « Persistent » de Veo 3

Cependant, de nombreux utilisateurs ont constaté que l'outil ne fonctionnait pas comme prévu. Lors de la création de clips avec dialogues, Veo 3 insère souvent automatiquement des sous-titres inutiles et confus, même lorsque la commande indique explicitement de ne pas en ajouter.

Supprimer ces sous-titres n'est pas chose aisée. Les utilisateurs sont contraints de recréer la vidéo, de dépenser des « jetons », ce qui représente une augmentation des revenus pour Google, d'utiliser un outil externe ou de recadrer la vidéo pour supprimer les sous-titres.

video AI anh 1

Veo 3 produit des images réalistes, les dialogues correspondent aux mouvements de la bouche, mais les sous-titres sont dénués de sens. Photo : Lesswrong .

Josh Woodward, vice-président de Google Labs et de Gemini, a publié sur X le 9 juin que Google avait développé des correctifs pour réduire le spam. Mais plus d'un mois plus tard, les utilisateurs continuent de signaler le problème sur le canal Discord de Google Labs, démontrant ainsi la difficulté de corriger les bugs dans les grands modèles d'IA.

Comme les précédents modèles d'IA de génération de vidéos de Google, Veo 3 est un modèle payant, à partir de 249,99 $ par mois. Pour créer une vidéo de 8 secondes, les utilisateurs saisissent une description dans Flow, Gemini ou une autre plateforme. Chaque clip créé avec Veo 3 coûte au minimum 20 crédits d'IA, et les utilisateurs peuvent compléter leur abonnement pour 25 $ , soit 2 500 crédits.

Mona Weiss, réalisatrice commerciale, a déclaré que la recréation de séquences pour supprimer les sous-titres devenait une dépense importante. « Si vous créez une scène parlée avec Veo3, environ 40 % du résultat comportera des sous-titres absurdes qui rendront la vidéo inutilisable », a-t-elle expliqué. « C'est très coûteux d'obtenir une scène qui vous plaît, et qui est inutilisable. »

video AI anh 2

Les sous-titres absurdes sont difficiles à supprimer sur Veo 3. Photo : Technology Review .

Lorsque Weiss a signalé le problème à Google Labs via Discord dans l'espoir d'obtenir un remboursement des crédits gaspillés, l'équipe d'assistance l'a transférée au service d'assistance officiel de l'entreprise. On lui a proposé de rembourser l'abonnement Veo 3, mais pas les crédits. Weiss a refusé, car accepter le remboursement signifierait perdre l'accès au modèle.

L'équipe d'assistance Discord de Google Labs a déclaré que les sous-titres peuvent être automatiquement activés si une parole est détectée, et ils travaillent sur un correctif.

Le problème avec l’approche de Google

La raison pour laquelle Veo 3 insère automatiquement des légendes vient des données sur lesquelles le modèle est formé.

Bien que Google n'ait pas divulgué les catégories de données utilisées pour former le modèle, il incluait probablement des vidéos de YouTube et TikTok, dont beaucoup ont des sous-titres intégrés directement dans l'image, ce qui les rend difficiles à supprimer avant d'être utilisées comme données de formation, selon Shuo Niu, chercheur sur les plateformes de partage de vidéos et l'IA à l'Université Clark dans le Massachusetts.

« Les modèles de conversion de texte en vidéo sont formés à l'aide de l'apprentissage par renforcement pour générer du contenu qui imite les vidéos générées par l'homme, et si ces vidéos ont des sous-titres, le modèle peut « apprendre » que l'ajout de sous-titres rend le produit plus semblable aux vidéos générées par l'homme », explique-t-il.

video AI anh 3

Veo 3 est affecté par les données d'entraînement du modèle provenant des vidéos YouTube et TikTok. Photo : Mashable .

« Nous améliorons constamment nos capacités de création vidéo, notamment en matière de texte, de synthèse vocale naturelle et de son parfaitement synchronisé », a déclaré un porte-parole de Google. « Nous encourageons les utilisateurs à réessayer leurs commandes s'ils constatent des résultats incohérents et à nous faire part de leurs commentaires en appréciant ou en désapprouvant les résultats. »

De plus, la raison pour laquelle le modèle ignore les instructions telles que « Pas de sous-titres » est que les déclarations négatives (demandant à l’IA de ne pas faire quelque chose) sont souvent moins efficaces que les invites positives, selon Tuhin Chakrabarty, chercheur en systèmes d’IA à l’Université Stony Brook.

Pour résoudre complètement le problème, Google devrait examiner chaque image de toutes les vidéos qu'il a utilisées pour entraîner Veo 3, puis supprimer ou réétiqueter les vidéos avec des sous-titres avant de réentraîner le modèle, ce qui prendrait des semaines, a ajouté Chakrabarty.

Katerina Cizek, réalisatrice de documentaires et directrice artistique au MIT Open Documentary Lab, affirme que ce problème montre que Google est toujours prêt à sortir des produits qui ne sont pas encore tout à fait terminés.

« Google a besoin d'une victoire », a déclaré Cizek. « Ils doivent être les premiers à proposer un outil capable de reproduire le son de leurs lèvres. Et c'est plus important que de résoudre le problème du sous-titrage. »

Source : https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Comment (0)

No data
No data
Morceaux de teinte - Morceaux de teinte
Scène magique sur la colline de thé « bol renversé » à Phu Tho
Trois îles de la région centrale sont comparées aux Maldives et attirent les touristes en été.
Admirez la ville côtière scintillante de Gia Lai à Quy Nhon la nuit
Image de champs en terrasses à Phu Tho, en pente douce, lumineux et beaux comme des miroirs avant la saison des plantations
L'usine Z121 est prête pour la soirée finale du feu d'artifice international
Un célèbre magazine de voyage fait l'éloge de la grotte de Son Doong comme étant « la plus magnifique de la planète »
Une grotte mystérieuse attire les touristes occidentaux, comparée à la « grotte de Phong Nha » à Thanh Hoa
Découvrez la beauté poétique de la baie de Vinh Hy
Comment est transformé le thé le plus cher de Hanoi, dont le prix dépasse les 10 millions de VND/kg ?

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit