
Veo3 es el modelo de IA más reciente de Google, lanzado a finales de mayo, que permite a los usuarios crear vídeos mediante comandos de voz. Este modelo ha captado la atención de la comunidad de creación de contenido, ya que permite crear vídeos con sonido y diálogo, una función que no estaba disponible en versiones anteriores del modelo de Google, lo que los hace más realistas.
Muchos usuarios utilizan videoclips de Veo 3, de hasta 8 segundos de duración, para crear anuncios, vídeos ASMR, avances de películas de fantasía y entrevistas callejeras humorísticas.
El director nominado al Óscar, Darren Aronofsky, utilizó la herramienta para crear un cortometraje titulado Ancestra. En la rueda de prensa, el director ejecutivo de Google DeepMind, Demis Hassabis, comparó Veo 3 con un paso "fuera de la era del cine mudo" en el cine.
Subtítulos "persistentes" de Veo 3
Sin embargo, muchos usuarios han descubierto que esta herramienta no funciona como se esperaba. Al crear clips con diálogos, Veo 3 a menudo inserta automáticamente subtítulos sin sentido y desordenados, incluso cuando el comando indica claramente que no se deben agregar subtítulos.
Eliminar estos subtítulos no es sencillo. Los usuarios se ven obligados a recrear el vídeo, gastando "tokens" (lo que implica gastar más dinero en Google), o a usar herramientas externas para eliminar los subtítulos, o a recortar el vídeo para eliminarlos.
![]() |
Veo 3 produce imágenes realistas y diálogos que coinciden con los movimientos de los labios, pero los subtítulos no tienen sentido. Foto: Lesswrong . |
Josh Woodward, vicepresidente de Google Labs y Gemini, publicó en X el 9 de junio que Google había desarrollado parches para reducir el problema del spam. Sin embargo, más de un mes después, los usuarios siguen reportando este problema en el canal de Discord de Google Labs, lo que demuestra que corregir errores en modelos de IA complejos no es tarea fácil.
Al igual que los modelos anteriores de creación de vídeo con IA de Google, Veo 3 es un modelo de pago, con un precio inicial de 249,99 dólares al mes. Para crear un vídeo de 8 segundos, los usuarios introducen una descripción en Flow, Gemini u otra plataforma. Cada clip creado con Veo 3 cuesta al menos 20 créditos de IA, y los usuarios pueden recargar su cuenta por 25 dólares para obtener 2500 créditos.
Mona Weiss, directora de comerciales, afirma que recrear metraje para eliminar los subtítulos se está convirtiendo en un gasto considerable. «Si creas una escena con diálogo usando Veo3, aproximadamente el 40 % del resultado tendrá subtítulos sin sentido, lo que hace que el video sea inutilizable», explica. «Cuesta mucho dinero obtener una escena que te guste, pero al final resulta inservible».
![]() |
Es difícil eliminar los subtítulos sin sentido en la Veo 3. Foto: Technology Review . |
Cuando Weiss informó del problema a Google Labs a través de Discord con la esperanza de recuperar sus créditos perdidos, el equipo de soporte la remitió al departamento de soporte oficial de la empresa. Le ofrecieron un reembolso por la suscripción a Veo 3, pero no por los créditos. Weiss se negó porque aceptar el reembolso implicaría perder el acceso al modelo.
El equipo de soporte de Google Labs en Discord ha indicado que los subtítulos podrían activarse automáticamente si se detecta voz, y que están trabajando para solucionar este error.
El problema radica en el enfoque de Google.
La razón por la que Veo 3 inserta subtítulos automáticamente se debe a los datos con los que se entrenó el modelo.
Aunque Google no ha revelado detalles sobre las categorías de datos utilizadas para entrenar sus modelos, es probable que incluyan vídeos de plataformas como YouTube y TikTok, muchos de los cuales contienen subtítulos. Estos subtítulos están integrados directamente en los fotogramas del vídeo, lo que dificulta su eliminación antes de utilizarlos como datos de entrenamiento, según Shuo Niu, investigador de plataformas de vídeo e inteligencia artificial en la Universidad de Clark (Massachusetts, EE. UU.).
"Los modelos de conversión de texto a vídeo se entrenan mediante aprendizaje por refuerzo para crear contenido que imite los vídeos hechos por humanos, y si esos vídeos tienen subtítulos, el modelo puede 'aprender' que añadir subtítulos hace que el producto se parezca más a un vídeo hecho por humanos", explicó.
![]() |
Veo 3 se vio afectado por los datos de entrenamiento del modelo procedentes de vídeos de YouTube y TikTok. Imagen: Mashable . |
Un portavoz de Google declaró: «Mejoramos constantemente nuestras capacidades de creación de vídeo, especialmente en lo que respecta al texto, la voz natural y el audio perfectamente sincronizado. Animamos a los usuarios a que vuelvan a intentar el comando si los resultados no son consistentes y a que nos envíen sus comentarios mediante la función "Me gusta" o "No me gusta"».
Además, la razón por la que este modelo ignora indicaciones como "Sin subtítulos" es porque las afirmaciones negativas (que le indican a la IA que no haga algo) suelen ser menos efectivas que las afirmativas, según Tuhin Chakrabarty, investigador de sistemas de IA en la Universidad de Stony Brook.
Para resolver completamente el problema, Google tendrá que examinar cada fotograma de todos los vídeos utilizados para entrenar Veo 3, eliminar o renombrar los vídeos con subtítulos antes de volver a entrenar el modelo. Esto llevará semanas, añadió Chakrabarty.
Katerina Cizek, documentalista y directora de arte del MIT Open Documentary Lab, sostiene que este problema demuestra la disposición de Google a lanzar productos que aún no están completamente terminados.
«Google necesita un triunfo», afirmó Cizek. «Deben ser los primeros en lanzar una herramienta que pueda crear audio que sincronice los movimientos de los labios. Y eso es más importante que solucionar el problema de los subtítulos».
Fuente: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Kommentar (0)