Vietnam.vn - Nền tảng quảng bá Việt Nam

El gran problema con Veo 3

Este modelo de IA inserta automáticamente subtítulos desordenados y sin sentido en los vídeos más de un mes después de su lanzamiento. Esta situación demuestra que Google está dispuesto a lanzar productos incompletos para demostrar sus capacidades de IA.

ZNewsZNews19/07/2025

Veo3 es el último modelo de IA de Google, lanzado a finales de mayo, que permite a los usuarios crear vídeos mediante comandos de voz. Este modelo ha atraído la atención de la comunidad de creación de contenido, ya que permite crear vídeos con sonido y diálogos, una función no disponible en versiones anteriores del modelo de Google, haciéndolos así más realistas.

Muchos usuarios utilizan videoclips de Veo 3, de hasta 8 segundos de duración, para crear comerciales, videos ASMR, avances de películas de fantasía y entrevistas callejeras humorísticas.

El director nominado al Oscar, Darren Aronofsky, utilizó la herramienta para crear un cortometraje llamado Ancestra. En la conferencia de prensa, Demis Hassabis, director ejecutivo de Google DeepMind, comparó Veo 3 con una salida a la era del cine mudo.

Subtítulos "Persistentes" de Veo 3

Sin embargo, muchos usuarios han notado que esta herramienta no funciona como se esperaba. Al crear clips con diálogos, Veo 3 suele insertar automáticamente subtítulos desordenados y sin sentido, incluso cuando el comando indica claramente que no se deben agregar subtítulos.

Eliminar estos subtítulos no es sencillo. Los usuarios se ven obligados a recrear el clip, gastando "tokens" (lo que implica gastar más dinero en Google), o a usar herramientas externas para eliminar los subtítulos, o a recortar el vídeo para eliminarlos.

video AI anh 1

Veo 3 produce imágenes y diálogos realistas que se ajustan a los movimientos de los labios, pero los subtítulos carecen de sentido. Foto: Lesswrong .

Josh Woodward, vicepresidente de Google Labs y Gemini, publicó en X el 9 de junio que Google había desarrollado parches para reducir el problema del spam. Sin embargo, más de un mes después, los usuarios siguen reportando este problema en el canal de Discord de Google Labs, lo que demuestra que corregir errores en grandes modelos de IA no es fácil.

Al igual que los modelos anteriores de Google para la creación de videos con IA, Veo 3 es un modelo de pago, con un precio inicial de $249.99 al mes. Para crear un video de 8 segundos, los usuarios introducen una descripción en Flow, Gemini u otra plataforma. Cada video creado con Veo 3 cuesta al menos 20 créditos de IA, y los usuarios pueden recargarlo por $25 para obtener 2500 créditos.

Mona Weiss, directora de comerciales, afirma que recrear el metraje para eliminar los subtítulos se está convirtiendo en un gasto considerable. "Si creas una escena con diálogos usando Veo3, aproximadamente el 40 % del resultado tendrá subtítulos sin sentido, lo que inutilizará el vídeo", afirma. "Cuesta mucho dinero conseguir una escena que te guste, pero al final resulta inutilizable".

video AI anh 2

Los subtítulos sin sentido son difíciles de eliminar en el Veo 3. Foto: Technology Review .

Cuando Weiss reportó el problema a Google Labs a través de Discord con la esperanza de recuperar los créditos que había desperdiciado, el equipo de soporte la remitió al departamento de soporte oficial de la compañía. Le ofrecieron un reembolso de la suscripción a Veo 3, pero no de los créditos. Weiss se negó porque aceptar el reembolso significaría perder el acceso al modelo.

El equipo de soporte de Discord de Google Labs afirmó que los subtítulos podrían activarse automáticamente si se detecta voz y están trabajando para solucionar este error.

El problema surge del enfoque de Google.

La razón por la que Veo 3 inserta subtítulos automáticamente se debe a los datos con los que se entrenó el modelo.

Aunque Google no ha publicado detalles sobre las categorías de datos utilizadas para entrenar sus modelos, es probable que incluya vídeos de plataformas como YouTube y TikTok, muchos de los cuales contienen subtítulos. Estos subtítulos se integran directamente en los fotogramas del vídeo, lo que dificulta su eliminación antes de usarlos como datos de entrenamiento, según Shuo Niu, investigador en plataformas para compartir vídeos e IA en la Universidad de Clark (Massachusetts, EE. UU.).

"Los modelos de texto a video se entrenan mediante aprendizaje de refuerzo para crear contenido que imita videos hechos por humanos, y si esos videos tienen subtítulos, el modelo puede 'aprender' que agregar subtítulos hace que el producto se parezca más a un video hecho por humanos", explicó.

video AI anh 3

Veo 3 se vio afectado por los datos de entrenamiento de modelos de vídeos de YouTube y TikTok. Imagen: Mashable .

Un portavoz de Google declaró: «Mejoramos constantemente nuestras funciones de creación de videos, especialmente en cuanto a texto, voz natural y audio perfectamente sincronizado. Animamos a los usuarios a que vuelvan a intentar el comando si encuentran resultados inconsistentes y a que nos den su opinión mediante la función de «Me gusta» o «No me gusta».

Además, la razón por la que este modelo ignora indicaciones como "Sin subtítulos" es porque las declaraciones negativas (que le dan instrucciones a la IA para que no haga algo) son generalmente menos efectivas que las indicaciones afirmativas, según Tuhin Chakrabarty, investigador en sistemas de IA en la Universidad de Stony Brook.

Para resolver el problema por completo, Google tendrá que examinar cada fotograma de todos los vídeos utilizados para entrenar Veo 3 y, a continuación, eliminar o reetiquetar los vídeos con subtítulos antes de volver a entrenar el modelo. Esto llevará semanas, añadió Chakrabarty.

Katerina Cizek, cineasta documental y directora artística del MIT Open Documentary Lab, sostiene que este problema demuestra la voluntad de Google de lanzar productos que aún no están totalmente terminados.

"Google necesita una victoria", declaró Cizek. "Necesitan ser los primeros en lanzar una herramienta que pueda crear audio que coincida con los movimientos de los labios. Y eso es más importante que solucionar el problema de los subtítulos".

Fuente: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Kommentar (0)

¡Deja un comentario para compartir tus sentimientos!

Misma categoría

Una vista de cerca del taller que fabrica la estrella LED para la Catedral de Notre Dame.
Particularmente llamativa es la estrella navideña de ocho metros de altura que ilumina la Catedral de Notre Dame en Ciudad Ho Chi Minh.
Huynh Nhu hace historia en los SEA Games: un récord que será muy difícil de romper.
La impresionante iglesia en la autopista 51 se iluminó para Navidad, atrayendo la atención de todos los que pasaban.

Mismo autor

Herencia

Cifra

Negocio

Los agricultores de la aldea de flores de Sa Dec están ocupados cuidando sus flores en preparación para el Festival y el Tet (Año Nuevo Lunar) 2026.

Actualidad

Sistema político

Local

Producto