Le gros problème de Veo 3

Veo3 est le dernier modèle d'IA de Google, lancé fin mai, qui permet de générer des vidéos à partir de commandes. Ce modèle a attiré l'attention de la communauté des créateurs de contenu car il permet de créer des vidéos avec son et dialogues, une fonctionnalité absente de la version précédente de Google, ce qui le rend plus réaliste.

De nombreux utilisateurs utilisent les vidéos Veo 3, d'une durée maximale de 8 secondes, pour créer des publicités, des vidéos ASMR, des bandes-annonces de films fantastiques et des interviews de rue humoristiques.

Le réalisateur nominé aux Oscars Darren Aronofsky a utilisé cet outil pour créer un court-métrage intitulé Ancestra. Lors d'une conférence de presse, Demis Hassabis, PDG de Google DeepMind, a comparé Veo 3 à une rupture avec l'ère du cinéma muet.

Sous-titres « Persistent » de Veo 3

Cependant, de nombreux utilisateurs ont constaté que l'outil ne fonctionne pas comme prévu. Lors de la création de clips avec dialogues, Veo 3 insère souvent automatiquement des sous-titres inutiles et confus, même lorsque la commande indique explicitement de ne pas en ajouter.

Supprimer ces sous-titres n'est pas simple. Les utilisateurs sont obligés de recréer la vidéo, de dépenser des « tokens », ce qui implique des frais supplémentaires pour Google, d'utiliser un outil externe pour supprimer les sous-titres, ou encore de recadrer la vidéo pour les supprimer.

Veo 3 produit des images réalistes, les dialogues correspondent aux mouvements de la bouche, mais les sous-titres sont dénués de sens. Photo : Lesswrong .

Josh Woodward, vice-président de Google Labs et de Gemini, a publié sur X le 9 juin un message annonçant que Google avait développé des correctifs pour réduire le spam. Mais plus d'un mois plus tard, les utilisateurs continuent de signaler le problème sur le canal Discord de Google Labs, démontrant ainsi la difficulté de corriger les bugs dans les grands modèles d'IA.

Comme les précédents modèles d'IA de génération de vidéos de Google, Veo 3 est un modèle payant, à partir de 249,99 $ par mois. Pour créer une vidéo de 8 secondes, les utilisateurs saisissent une description dans Flow, Gemini ou une autre plateforme. Chaque clip créé avec Veo 3 coûte au minimum 20 crédits d'IA, et les utilisateurs peuvent compléter leur abonnement avec 2 500 crédits pour 25 $ .

Mona Weiss, réalisatrice commerciale, a déclaré que la recréation de séquences pour supprimer les sous-titres devenait une dépense importante. « Si vous créez une scène parlée avec Veo3, environ 40 % du résultat aura des sous-titres incompréhensibles qui rendront la vidéo inutilisable », a-t-elle expliqué. « C'est très coûteux d'obtenir une scène qui vous plaît, mais au final, elle est inutilisable. »

Les sous-titres dénués de sens sont difficiles à supprimer sur Veo 3. Photo : Technology Review .

Lorsque Weiss a signalé le problème à Google Labs via Discord dans l'espoir d'obtenir un remboursement pour les crédits gaspillés, l'équipe d'assistance l'a transférée au service d'assistance officiel de l'entreprise. On lui a proposé de rembourser l'abonnement Veo 3, mais pas les crédits. Weiss a refusé, car accepter un remboursement signifierait perdre l'accès au modèle.

L'équipe d'assistance Discord de Google Labs indique que les sous-titres peuvent être automatiquement activés si une parole est détectée, et ils travaillent sur un correctif.

Le problème avec l’approche de Google

La raison pour laquelle Veo 3 insère automatiquement des sous-titres vient des données sur lesquelles le modèle est formé.

Bien que Google n'ait pas divulgué les détails des catégories de données utilisées pour former le modèle, il incluait probablement des vidéos de YouTube et TikTok, dont beaucoup ont des sous-titres intégrés directement dans l'image, ce qui les rend difficiles à supprimer avant d'être utilisées comme données de formation du modèle, selon Shuo Niu, chercheur sur les plateformes de partage de vidéos et l'IA à l'Université Clark (Massachusetts, États-Unis).

« Les modèles de conversion de texte en vidéo sont formés à l'aide de l'apprentissage par renforcement pour générer du contenu qui imite les vidéos générées par l'homme, et si ces vidéos ont des sous-titres, le modèle peut « apprendre » que l'ajout de sous-titres rend le produit plus semblable aux vidéos générées par l'homme », explique-t-il.

Veo 3 est affecté par les données d'entraînement du modèle issues des vidéos YouTube et TikTok. Photo : Mashable .

« Nous améliorons constamment nos capacités de création vidéo, notamment en matière de texte, de voix naturelle et de son parfaitement synchronisé », a déclaré un porte-parole de Google. « Nous encourageons les utilisateurs à réessayer leurs commandes s'ils constatent des résultats incohérents et à nous faire part de leurs commentaires en appréciant ou en désapprouvant les résultats. »

De plus, la raison pour laquelle le modèle ignore les instructions telles que « Pas de sous-titres » est que les déclarations négatives (demandant à l’IA de ne pas faire quelque chose) sont souvent moins efficaces que les invites positives, selon Tuhin Chakrabarty, chercheur en systèmes d’IA à l’Université Stony Brook.

Pour résoudre complètement le problème, Google devrait examiner chaque image de toutes les vidéos utilisées pour entraîner Veo 3, puis supprimer ou réétiqueter les vidéos sous-titrées avant de réentraîner le modèle, ce qui prendrait des semaines, a ajouté Chakrabarty.

Katerina Cizek, réalisatrice de documentaires et directrice artistique au MIT Open Documentary Lab, affirme que ce problème montre que Google est toujours prêt à sortir des produits qui ne sont pas encore tout à fait terminés.

« Google doit gagner », a déclaré Cizek. « Il faut qu'ils soient les premiers à proposer un outil capable de reproduire le son des lèvres. Et c'est plus important que de résoudre le problème du sous-titrage. »

Source : https://znews.vn/van-de-lon-cua-veo-3-post1569402.html