
Veo3 es el último modelo de IA de Google, lanzado a finales de mayo, que permite a los usuarios crear vídeos mediante comandos de voz. Este modelo ha atraído la atención de la comunidad de creación de contenido, ya que permite crear vídeos con sonido y diálogos, una función no disponible en versiones anteriores del modelo de Google, haciéndolos así más realistas.
Muchos usuarios utilizan videoclips de Veo 3, de hasta 8 segundos de duración, para crear comerciales, videos ASMR, avances de películas de fantasía y entrevistas callejeras humorísticas.
El director nominado al Oscar, Darren Aronofsky, utilizó la herramienta para crear un cortometraje llamado Ancestra. En la conferencia de prensa, Demis Hassabis, director ejecutivo de Google DeepMind, comparó Veo 3 con una salida a la era del cine mudo.
Subtítulos "Persistentes" de Veo 3
Sin embargo, muchos usuarios han notado que esta herramienta no funciona como se esperaba. Al crear clips con diálogos, Veo 3 suele insertar automáticamente subtítulos desordenados y sin sentido, incluso cuando el comando indica claramente que no se deben agregar subtítulos.
Eliminar estos subtítulos no es sencillo. Los usuarios se ven obligados a recrear el clip, gastando "tokens" (lo que implica gastar más dinero en Google), o a usar herramientas externas para eliminar los subtítulos, o a recortar el vídeo para eliminarlos.
![]() |
Veo 3 produce imágenes y diálogos realistas que se ajustan a los movimientos de los labios, pero los subtítulos carecen de sentido. Foto: Lesswrong . |
Josh Woodward, vicepresidente de Google Labs y Gemini, publicó en X el 9 de junio que Google había desarrollado parches para reducir el problema del spam. Sin embargo, más de un mes después, los usuarios siguen reportando este problema en el canal de Discord de Google Labs, lo que demuestra que corregir errores en grandes modelos de IA no es fácil.
Al igual que los modelos anteriores de Google para la creación de videos con IA, Veo 3 es un modelo de pago, con un precio inicial de $249.99 al mes. Para crear un video de 8 segundos, los usuarios introducen una descripción en Flow, Gemini u otra plataforma. Cada video creado con Veo 3 cuesta al menos 20 créditos de IA, y los usuarios pueden recargarlo por $25 para obtener 2500 créditos.
Mona Weiss, directora de comerciales, afirma que recrear el metraje para eliminar los subtítulos se está convirtiendo en un gasto considerable. "Si creas una escena con diálogos usando Veo3, aproximadamente el 40 % del resultado tendrá subtítulos sin sentido, lo que inutilizará el vídeo", afirma. "Cuesta mucho dinero conseguir una escena que te guste, pero al final resulta inutilizable".
![]() |
Los subtítulos sin sentido son difíciles de eliminar en el Veo 3. Foto: Technology Review . |
Cuando Weiss reportó el problema a Google Labs a través de Discord con la esperanza de recuperar los créditos que había desperdiciado, el equipo de soporte la remitió al departamento de soporte oficial de la compañía. Le ofrecieron un reembolso de la suscripción a Veo 3, pero no de los créditos. Weiss se negó porque aceptar el reembolso significaría perder el acceso al modelo.
El equipo de soporte de Discord de Google Labs afirmó que los subtítulos podrían activarse automáticamente si se detecta voz y están trabajando para solucionar este error.
El problema surge del enfoque de Google.
La razón por la que Veo 3 inserta subtítulos automáticamente se debe a los datos con los que se entrenó el modelo.
Aunque Google no ha publicado detalles sobre las categorías de datos utilizadas para entrenar sus modelos, es probable que incluya vídeos de plataformas como YouTube y TikTok, muchos de los cuales contienen subtítulos. Estos subtítulos se integran directamente en los fotogramas del vídeo, lo que dificulta su eliminación antes de usarlos como datos de entrenamiento, según Shuo Niu, investigador en plataformas para compartir vídeos e IA en la Universidad de Clark (Massachusetts, EE. UU.).
"Los modelos de texto a video se entrenan mediante aprendizaje de refuerzo para crear contenido que imita videos hechos por humanos, y si esos videos tienen subtítulos, el modelo puede 'aprender' que agregar subtítulos hace que el producto se parezca más a un video hecho por humanos", explicó.
![]() |
Veo 3 se vio afectado por los datos de entrenamiento de modelos de vídeos de YouTube y TikTok. Imagen: Mashable . |
Un portavoz de Google declaró: «Mejoramos constantemente nuestras funciones de creación de videos, especialmente en cuanto a texto, voz natural y audio perfectamente sincronizado. Animamos a los usuarios a que vuelvan a intentar el comando si encuentran resultados inconsistentes y a que nos den su opinión mediante la función de «Me gusta» o «No me gusta».
Además, la razón por la que este modelo ignora indicaciones como "Sin subtítulos" es porque las declaraciones negativas (que le dan instrucciones a la IA para que no haga algo) son generalmente menos efectivas que las indicaciones afirmativas, según Tuhin Chakrabarty, investigador en sistemas de IA en la Universidad de Stony Brook.
Para resolver el problema por completo, Google tendrá que examinar cada fotograma de todos los vídeos utilizados para entrenar Veo 3 y, a continuación, eliminar o reetiquetar los vídeos con subtítulos antes de volver a entrenar el modelo. Esto llevará semanas, añadió Chakrabarty.
Katerina Cizek, cineasta documental y directora artística del MIT Open Documentary Lab, sostiene que este problema demuestra la voluntad de Google de lanzar productos que aún no están totalmente terminados.
"Google necesita una victoria", declaró Cizek. "Necesitan ser los primeros en lanzar una herramienta que pueda crear audio que coincida con los movimientos de los labios. Y eso es más importante que solucionar el problema de los subtítulos".
Fuente: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Kommentar (0)