Vietnam.vn - Nền tảng quảng bá Việt Nam

El gran problema del Veo 3

Este modelo de IA está insertando automáticamente galimatías en los vídeos más de un mes después de su lanzamiento, lo que demuestra que Google está dispuesto a lanzar productos inacabados para demostrar sus capacidades de IA.

ZNewsZNews19/07/2025

Veo3 es el último modelo de IA de Google, lanzado a finales de mayo, que permite generar vídeos mediante comandos. Este modelo ha captado la atención de la comunidad de creación de contenido porque permite crear vídeos con sonido y diálogos, una función que no estaba disponible en la versión anterior de Google, lo que los hace más realistas.

Muchos usuarios utilizan vídeos de Veo 3, de hasta 8 segundos de duración, para crear comerciales, vídeos ASMR, tráilers de películas de fantasía y entrevistas callejeras humorísticas.

El director nominado al Oscar, Darren Aronofsky, utilizó la herramienta para crear un cortometraje llamado Ancestra. Durante una conferencia de prensa, Demis Hassabis, director ejecutivo de Google DeepMind, comparó Veo 3 con un alejamiento de la era del cine mudo.

Subtítulos "Persistentes" de Veo 3

Sin embargo, muchos usuarios han notado que la herramienta no funciona como se esperaba. Al crear clips con diálogos, Veo 3 suele insertar automáticamente subtítulos sin sentido y desordenados, incluso cuando el comando indica explícitamente que no se deben agregar subtítulos.

Eliminar estos subtítulos no es fácil. Los usuarios se ven obligados a recrear el clip, gastar tokens (lo que significa más dinero para Google), usar una herramienta externa para eliminar los subtítulos o recortar el video para eliminarlos.

video AI anh 1

Veo 3 produce imágenes realistas, los diálogos se ajustan a los movimientos de la boca, pero los subtítulos carecen de sentido. Foto: Lesswrong .

Josh Woodward, vicepresidente de Google Labs y Gemini, publicó en X el 9 de junio que Google había desarrollado parches para reducir el spam. Sin embargo, más de un mes después, los usuarios siguen reportando el problema en el canal de Discord de Google Labs, lo que demuestra que corregir errores en grandes modelos de IA no es fácil.

Al igual que los modelos de IA de Google para la generación de videos, Veo 3 es un modelo de pago, con un precio inicial de $249.99 al mes. Para crear un video de 8 segundos, los usuarios ingresan una descripción en Flow, Gemini u otra plataforma. Cada clip creado con Veo 3 cuesta un mínimo de 20 créditos de IA, y los usuarios pueden recargarlo por $25 para obtener 2,500 créditos.

Mona Weiss, directora de comerciales, comentó que recrear el metraje para eliminar los subtítulos se estaba convirtiendo en un gasto considerable. "Si creas una escena hablada con Veo3, aproximadamente el 40 % del resultado tendrá subtítulos sin sentido que inutilizarán el video", explicó. "Es mucho dinero conseguir una escena que te gusta y que no se pueda usar".

video AI anh 2

Los subtítulos sin sentido son difíciles de eliminar en Veo 3. Foto: Technology Review .

Cuando Weiss reportó el problema a Google Labs a través de Discord con la esperanza de obtener un reembolso por los créditos desperdiciados, el equipo de soporte la transfirió al departamento de soporte oficial de la compañía. Le ofrecieron reembolsar el costo de la suscripción a Veo 3, pero no los créditos. Weiss se negó porque aceptar el reembolso significaría perder el acceso al modelo.

El equipo de soporte de Discord de Google Labs dijo que los subtítulos se pueden habilitar automáticamente si se detecta voz y que están trabajando para solucionarlo.

El problema con el enfoque de Google

El motivo por el que Veo 3 inserta subtítulos automáticamente proviene de los datos con los que se entrena el modelo.

Si bien Google no reveló las categorías de datos utilizadas para entrenar el modelo, probablemente incluyó videos de YouTube y TikTok, muchos de los cuales tienen subtítulos incrustados directamente en el marco, lo que dificulta su eliminación antes de ser utilizados como datos de entrenamiento, según Shuo Niu, investigador en plataformas para compartir videos e IA en la Universidad de Clark en Massachusetts.

“Los modelos de texto a video se entrenan mediante aprendizaje de refuerzo para generar contenido que imita videos generados por humanos, y si esos videos tienen subtítulos, el modelo puede 'aprender' que agregar subtítulos hace que el producto se parezca más a los videos generados por humanos”, explica.

video AI anh 3

Veo 3 se ve afectado por los datos de entrenamiento de modelos de vídeos de YouTube y TikTok. Foto: Mashable .

“Mejoramos constantemente nuestras funciones de creación de videos, especialmente en cuanto a texto, voz natural y audio perfectamente sincronizado”, declaró un portavoz de Google. “Animamos a los usuarios a que vuelvan a intentar sus comandos si ven resultados inconsistentes y a que nos den su opinión, ya sea indicando si les gusta o no”.

Además, la razón por la que el modelo ignora instrucciones como "Sin subtítulos" es porque las declaraciones negativas (pedirle a la IA que no haga algo) suelen ser menos efectivas que las indicaciones positivas, según Tuhin Chakrabarty, investigador en sistemas de IA en la Universidad de Stony Brook.

Para solucionar el problema por completo, Google tendría que examinar cada fotograma de todos los vídeos que utilizó para entrenar a Veo 3 y luego eliminar o volver a etiquetar los vídeos con subtítulos antes de volver a entrenar el modelo, lo que llevaría semanas, añadió Chakrabarty.

Katerina Cizek, cineasta documental y directora artística del Laboratorio de Documentales Abiertos del MIT, dice que el problema demuestra que Google todavía está dispuesto a lanzar productos que aún no están terminados.

«Google necesita un triunfo», dijo Cizek. «Necesitan ser los primeros en lanzar una herramienta que pueda imitar el sonido de sus labios. Y eso es más importante que solucionar el problema de los subtítulos».

Fuente: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Kommentar (0)

No data
No data
PIEZAS DE TONO - Piezas de Tono
Escena mágica en la colina del té "cuenco al revés" en Phu Tho
Tres islas de la región central se asemejan a las Maldivas y atraen turistas en verano.
Contemple la brillante ciudad costera de Quy Nhon, Gia Lai, por la noche.
Imagen de campos en terrazas en Phu Tho, con suave pendiente, brillantes y hermosos como espejos antes de la temporada de siembra.
La fábrica Z121 está lista para la Noche Final Internacional de Fuegos Artificiales
La famosa revista de viajes elogia la cueva Son Doong como "la más magnífica del planeta"
Una cueva misteriosa atrae a turistas occidentales, comparada con la "cueva Phong Nha" en Thanh Hoa
Descubra la belleza poética de la bahía de Vinh Hy
¿Cómo se procesa el té más caro de Hanoi, cuyo precio supera los 10 millones de VND/kg?

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto