Vietnam.vn - Nền tảng quảng bá Việt Nam

Le gros problème avec Veo 3

Ce modèle d'IA insère automatiquement des sous-titres brouillons et incompréhensibles dans des vidéos, plus d'un mois après son lancement. Cette situation montre que Google est prêt à publier des produits inachevés pour démontrer les capacités de son IA.

ZNewsZNews19/07/2025

Veo3, le dernier modèle d'IA de Google, lancé fin mai, permet aux utilisateurs de créer des vidéos à partir de commandes vocales. Ce modèle a suscité l'intérêt de la communauté des créateurs de contenu car il permet de réaliser des vidéos avec du son et des dialogues, une fonctionnalité absente des versions précédentes, ce qui les rend plus réalistes.

De nombreux utilisateurs utilisent les clips vidéo Veo 3, d'une durée maximale de 8 secondes, pour créer des publicités, des vidéos ASMR, des bandes-annonces de films fantastiques et des interviews de rue humoristiques.

Le réalisateur Darren Aronofsky, nommé aux Oscars, a utilisé cet outil pour créer un court métrage intitulé Ancestra. Lors de la conférence de presse, Demis Hassabis, PDG de Google DeepMind, a comparé Veo 3 à un retour aux sources du cinéma muet.

Sous-titres « persistants » de Veo 3

Cependant, de nombreux utilisateurs ont constaté que cet outil ne fonctionne pas comme prévu. Lors de la création de clips avec dialogues, Veo 3 insère souvent automatiquement des sous-titres incohérents et illisibles, même lorsque la commande indique clairement de ne pas en ajouter.

Supprimer ces sous-titres n'est pas chose simple. Les utilisateurs sont contraints de recréer la vidéo, ce qui implique de dépenser des « jetons » (donc de l'argent supplémentaire sur Google), d'utiliser des outils externes pour supprimer les sous-titres, ou encore de découper la vidéo pour les supprimer.

video AI anh 1

Veo 3 offre des graphismes réalistes et des dialogues synchronisés avec les mouvements des lèvres, mais les sous-titres sont incompréhensibles. Photo : Lesswrong .

Josh Woodward, vice-président de Google Labs et Gemini, a annoncé le 9 juin sur X que Google avait développé des correctifs pour réduire le problème de spam. Pourtant, plus d'un mois plus tard, des utilisateurs continuent de signaler ce problème sur le serveur Discord de Google Labs, preuve que corriger les bugs dans les grands modèles d'IA n'est pas chose aisée.

À l'instar des précédents modèles de création vidéo par IA de Google, Veo 3 est un service payant, à partir de 249,99 $ par mois. Pour créer une vidéo de 8 secondes, les utilisateurs saisissent une description dans Flow, Gemini ou une autre plateforme. Chaque création de clip avec Veo 3 coûte au minimum 20 crédits IA, et les utilisateurs peuvent recharger leur compte pour 25 $ afin d'obtenir 2 500 crédits.

Mona Weiss, réalisatrice de publicités, explique que la recréation de séquences pour supprimer les sous-titres représente un coût important. « Si vous créez une scène avec des dialogues à l'aide de Veo3, environ 40 % du résultat comporte des sous-titres incompréhensibles, rendant la vidéo inutilisable », déplore-t-elle. « Cela coûte cher d'obtenir une scène satisfaisante, mais au final, elle est inutilisable. »

video AI anh 2

Les sous-titres inutiles sont difficiles à supprimer sur le Veo 3. Photo : Technology Review .

Lorsque Weiss a signalé le problème à Google Labs via Discord dans l'espoir de récupérer ses crédits perdus, l'équipe d'assistance l'a redirigée vers le service client officiel de l'entreprise. Ce dernier lui a proposé un remboursement de l'abonnement Veo 3, mais pas des crédits. Weiss a refusé, car accepter le remboursement signifierait perdre l'accès au modèle.

L'équipe d'assistance Discord de Google Labs a indiqué que les sous-titres pourraient s'activer automatiquement si la voix est détectée, et qu'elle travaille à corriger ce bug.

Le problème vient de l'approche de Google.

La raison pour laquelle Veo 3 insère automatiquement des sous-titres provient des données sur lesquelles le modèle a été entraîné.

Bien que Google n'ait pas divulgué le détail des catégories de données utilisées pour entraîner ses modèles, il est probable qu'elles incluent des vidéos provenant de plateformes comme YouTube et TikTok, dont beaucoup contiennent des sous-titres. Ces sous-titres étant intégrés directement dans les images vidéo, il est difficile de les supprimer avant leur utilisation comme données d'entraînement, selon Shuo Niu, chercheur spécialisé dans les plateformes de partage de vidéos et l'intelligence artificielle à l'université Clark (Massachusetts, États-Unis).

« Les modèles de conversion texte-vidéo sont entraînés à l'aide de l'apprentissage par renforcement pour créer un contenu qui imite les vidéos réalisées par des humains, et si ces vidéos comportent des sous-titres, le modèle peut "apprendre" que l'ajout de sous-titres rend le produit plus semblable à une vidéo réalisée par un humain », a-t-il expliqué.

video AI anh 3

Veo 3 a été affecté par les données d'entraînement du modèle provenant de vidéos YouTube et TikTok. Image : Mashable .

Un porte-parole de Google a déclaré : « Nous améliorons constamment nos fonctionnalités de création vidéo, notamment en ce qui concerne le texte, la voix naturelle et la synchronisation audio parfaite. Nous encourageons les utilisateurs à réessayer la commande s’ils constatent des résultats incohérents et à nous faire part de leurs commentaires via la fonction « J’aime » ou « Je n’aime pas ». »

De plus, la raison pour laquelle ce modèle ignore les invites comme « Pas de sous-titres » est que les instructions négatives (indiquant à l'IA de ne pas faire quelque chose) sont généralement moins efficaces que les invites affirmatives, selon Tuhin Chakrabarty, chercheur en systèmes d'IA à l'université Stony Brook.

Pour résoudre complètement le problème, Google devra examiner chaque image de toutes les vidéos utilisées pour entraîner Veo 3, puis supprimer ou réétiqueter les vidéos sous-titrées avant de réentraîner le modèle. Cela prendra des semaines, a ajouté Chakrabarty.

Katerina Cizek, réalisatrice de documentaires et directrice artistique au MIT Open Documentary Lab, affirme que ce numéro démontre la volonté de Google de commercialiser des produits qui ne sont pas encore totalement finalisés.

« Google a besoin d'une victoire », a déclaré Cizek. « Ils doivent être les premiers à publier un outil capable de créer un son synchronisé avec les mouvements des lèvres. Et c'est plus important que de résoudre le problème des sous-titres. »

Source : https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Comment (0)

Laissez un commentaire pour partager vos ressentis !

Même catégorie

Même auteur

Patrimoine

Chiffre

Entreprises

Actualités

Système politique

Locale

Produit

Happy Vietnam
Ruisseau dans le village

Ruisseau dans le village

dehors

dehors

Fier

Fier