Vietnam.vn - Nền tảng quảng bá Việt Nam

Le gros problème de Veo 3

Ce modèle d'IA insère automatiquement des sous-titres incompréhensibles et dénués de sens dans les vidéos plus d'un mois après son lancement, une situation qui montre que Google est prêt à publier des produits inachevés pour démontrer ses capacités d'IA.

ZNewsZNews19/07/2025

Veo3 est le dernier modèle d'IA de Google, lancé fin mai, qui permet de générer des vidéos à partir de commandes. Ce modèle a attiré l'attention de la communauté des créateurs de contenu car il permet de créer des vidéos avec son et dialogues, une fonctionnalité absente de la version précédente de Google, ce qui le rend plus réaliste.

De nombreux utilisateurs utilisent les vidéos Veo 3, d'une durée maximale de 8 secondes, pour créer des publicités, des vidéos ASMR, des bandes-annonces de films fantastiques et des interviews de rue humoristiques.

Le réalisateur nominé aux Oscars Darren Aronofsky a utilisé cet outil pour créer un court-métrage intitulé Ancestra. Lors d'une conférence de presse, Demis Hassabis, PDG de Google DeepMind, a comparé Veo 3 à une rupture avec l'ère du cinéma muet.

Sous-titres « Persistent » de Veo 3

Cependant, de nombreux utilisateurs ont constaté que l'outil ne fonctionne pas comme prévu. Lors de la création de clips avec dialogues, Veo 3 insère souvent automatiquement des sous-titres inutiles et confus, même lorsque la commande indique explicitement de ne pas en ajouter.

Supprimer ces sous-titres n'est pas simple. Les utilisateurs sont obligés de recréer la vidéo, de dépenser des « tokens », ce qui implique des frais supplémentaires pour Google, d'utiliser un outil externe pour supprimer les sous-titres, ou encore de recadrer la vidéo pour les supprimer.

video AI anh 1

Veo 3 produit des images réalistes, les dialogues correspondent aux mouvements de la bouche, mais les sous-titres sont dénués de sens. Photo : Lesswrong .

Josh Woodward, vice-président de Google Labs et de Gemini, a publié sur X le 9 juin un message annonçant que Google avait développé des correctifs pour réduire le spam. Mais plus d'un mois plus tard, les utilisateurs continuent de signaler le problème sur le canal Discord de Google Labs, démontrant ainsi la difficulté de corriger les bugs dans les grands modèles d'IA.

Comme les précédents modèles d'IA de génération de vidéos de Google, Veo 3 est un modèle payant, à partir de 249,99 $ par mois. Pour créer une vidéo de 8 secondes, les utilisateurs saisissent une description dans Flow, Gemini ou une autre plateforme. Chaque clip créé avec Veo 3 coûte au minimum 20 crédits d'IA, et les utilisateurs peuvent compléter leur abonnement avec 2 500 crédits pour 25 $ .

Mona Weiss, réalisatrice commerciale, a déclaré que la recréation de séquences pour supprimer les sous-titres devenait une dépense importante. « Si vous créez une scène parlée avec Veo3, environ 40 % du résultat aura des sous-titres incompréhensibles qui rendront la vidéo inutilisable », a-t-elle expliqué. « C'est très coûteux d'obtenir une scène qui vous plaît, mais au final, elle est inutilisable. »

video AI anh 2

Les sous-titres dénués de sens sont difficiles à supprimer sur Veo 3. Photo : Technology Review .

Lorsque Weiss a signalé le problème à Google Labs via Discord dans l'espoir d'obtenir un remboursement pour les crédits gaspillés, l'équipe d'assistance l'a transférée au service d'assistance officiel de l'entreprise. On lui a proposé de rembourser l'abonnement Veo 3, mais pas les crédits. Weiss a refusé, car accepter un remboursement signifierait perdre l'accès au modèle.

L'équipe d'assistance Discord de Google Labs indique que les sous-titres peuvent être automatiquement activés si une parole est détectée, et ils travaillent sur un correctif.

Le problème avec l’approche de Google

La raison pour laquelle Veo 3 insère automatiquement des sous-titres vient des données sur lesquelles le modèle est formé.

Bien que Google n'ait pas divulgué les détails des catégories de données utilisées pour former le modèle, il incluait probablement des vidéos de YouTube et TikTok, dont beaucoup ont des sous-titres intégrés directement dans l'image, ce qui les rend difficiles à supprimer avant d'être utilisées comme données de formation du modèle, selon Shuo Niu, chercheur sur les plateformes de partage de vidéos et l'IA à l'Université Clark (Massachusetts, États-Unis).

« Les modèles de conversion de texte en vidéo sont formés à l'aide de l'apprentissage par renforcement pour générer du contenu qui imite les vidéos générées par l'homme, et si ces vidéos ont des sous-titres, le modèle peut « apprendre » que l'ajout de sous-titres rend le produit plus semblable aux vidéos générées par l'homme », explique-t-il.

video AI anh 3

Veo 3 est affecté par les données d'entraînement du modèle issues des vidéos YouTube et TikTok. Photo : Mashable .

« Nous améliorons constamment nos capacités de création vidéo, notamment en matière de texte, de voix naturelle et de son parfaitement synchronisé », a déclaré un porte-parole de Google. « Nous encourageons les utilisateurs à réessayer leurs commandes s'ils constatent des résultats incohérents et à nous faire part de leurs commentaires en appréciant ou en désapprouvant les résultats. »

De plus, la raison pour laquelle le modèle ignore les instructions telles que « Pas de sous-titres » est que les déclarations négatives (demandant à l’IA de ne pas faire quelque chose) sont souvent moins efficaces que les invites positives, selon Tuhin Chakrabarty, chercheur en systèmes d’IA à l’Université Stony Brook.

Pour résoudre complètement le problème, Google devrait examiner chaque image de toutes les vidéos utilisées pour entraîner Veo 3, puis supprimer ou réétiqueter les vidéos sous-titrées avant de réentraîner le modèle, ce qui prendrait des semaines, a ajouté Chakrabarty.

Katerina Cizek, réalisatrice de documentaires et directrice artistique au MIT Open Documentary Lab, affirme que ce problème montre que Google est toujours prêt à sortir des produits qui ne sont pas encore tout à fait terminés.

« Google doit gagner », a déclaré Cizek. « Il faut qu'ils soient les premiers à proposer un outil capable de reproduire le son des lèvres. Et c'est plus important que de résoudre le problème du sous-titrage. »

Source : https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Comment (0)

No data
No data

Même catégorie

Visitez U Minh Ha pour découvrir le tourisme vert à Muoi Ngot et Song Trem
L'équipe du Vietnam promue au rang FIFA après sa victoire contre le Népal, l'Indonésie en danger
71 ans après la libération, Hanoi conserve sa beauté patrimoniale dans le flux moderne
71e anniversaire de la Journée de la libération de la capitale : susciter l'enthousiasme pour que Hanoï entre résolument dans la nouvelle ère

Même auteur

Patrimoine

Chiffre

Entreprise

No videos available

Événements actuels

Système politique

Locale

Produit