Vietnam.vn - Nền tảng quảng bá Việt Nam

O grande problema com o Veo 3

Este modelo de IA está inserindo legendas confusas e sem sentido em vídeos automaticamente, mais de um mês após seu lançamento. Essa situação demonstra que o Google está disposto a lançar produtos inacabados para demonstrar suas capacidades em IA.

ZNewsZNews19/07/2025

O Veo3 é o modelo de IA mais recente do Google, lançado no final de maio, que permite aos usuários criar vídeos com base em comandos de voz. Esse modelo atraiu a atenção da comunidade de criadores de conteúdo, pois permite a criação de vídeos com som e diálogos, um recurso não disponível em versões anteriores do modelo do Google, tornando-os mais realistas.

Muitos usuários utilizam videoclipes do Veo 3, com até 8 segundos de duração, para criar comerciais, vídeos ASMR, trailers de filmes de fantasia e entrevistas de rua humorísticas.

O diretor indicado ao Oscar, Darren Aronofsky, usou a ferramenta para criar um curta-metragem chamado Ancestra. Na coletiva de imprensa, o CEO do Google DeepMind, Demis Hassabis, comparou o Veo 3 a um passo "para fora da era do cinema mudo" no cinema.

Legendas "persistentes" da Veo 3

No entanto, muitos usuários descobriram que essa ferramenta não funciona como esperado. Ao criar vídeos com diálogos, o Veo 3 frequentemente insere legendas sem sentido e confusas automaticamente, mesmo quando o comando indica claramente para não adicionar legendas.

Remover essas legendas não é simples. Os usuários são obrigados a recriar o vídeo, gastando "tokens", o que significa gastar mais dinheiro no Google, ou usar ferramentas externas para remover as legendas, ou ainda cortar o vídeo para removê-las.

video AI anh 1

O Veo 3 produz imagens realistas e diálogos que correspondem aos movimentos dos lábios, mas as legendas são incompreensíveis. Foto: Lesswrong .

Josh Woodward, vice-presidente do Google Labs e do Gemini, publicou no X em 9 de junho que o Google havia desenvolvido correções para reduzir o problema de spam. Mas, mais de um mês depois, usuários continuam relatando esse problema no canal do Discord do Google Labs, mostrando que corrigir bugs em grandes modelos de IA não é fácil.

Assim como os modelos anteriores de criação de vídeos com IA do Google, o Veo 3 é pago, com planos a partir de US$ 249,99 por mês. Para criar um vídeo de 8 segundos, os usuários inserem uma descrição no Flow, Gemini ou outra plataforma. Cada vídeo criado com o Veo 3 custa no mínimo 20 créditos de IA, e os usuários podem adicionar 2.500 créditos por US$ 25 .

Mona Weiss, diretora de comerciais, afirma que recriar filmagens para remover legendas está se tornando um custo significativo. "Se você criar uma cena com diálogos usando o Veo3, cerca de 40% do resultado terá legendas sem sentido, tornando o vídeo inutilizável", diz ela. "Custa muito dinheiro para conseguir uma cena do seu agrado, mas ela acaba sendo inutilizável."

video AI anh 2

Legendas sem sentido são difíceis de remover no Veo 3. Foto: Technology Review .

Quando Weiss relatou o problema ao Google Labs via Discord, na esperança de recuperar seus créditos perdidos, a equipe de suporte a encaminhou para o departamento de suporte oficial da empresa. Eles ofereceram um reembolso da assinatura do Veo 3, mas não dos créditos. Weiss recusou, pois aceitar o reembolso significaria perder o acesso ao modelo.

A equipe de suporte do Discord do Google Labs afirmou que as legendas podem ser ativadas automaticamente se a voz for detectada e que estão trabalhando para corrigir esse problema.

O problema decorre da abordagem do Google.

O motivo pelo qual o Veo 3 insere legendas automaticamente decorre dos dados com os quais o modelo foi treinado.

Embora o Google não tenha divulgado detalhes sobre as categorias de dados usadas para treinar seus modelos, é provável que incluam vídeos de plataformas como YouTube e TikTok, muitos dos quais contêm legendas. Essas legendas são incorporadas diretamente nos quadros do vídeo, o que dificulta sua remoção antes de serem usadas como dados de treinamento, de acordo com Shuo Niu, pesquisador de plataformas de compartilhamento de vídeo e IA na Universidade Clark (Massachusetts, EUA).

"Os modelos de texto para vídeo são treinados usando aprendizado por reforço para criar conteúdo que imita vídeos feitos por humanos e, se esses vídeos tiverem legendas, o modelo pode 'aprender' que adicionar legendas torna o produto mais parecido com um vídeo feito por humanos", explicou ele.

video AI anh 3

O Veo 3 foi afetado pelos dados de treinamento do modelo provenientes de vídeos do YouTube e do TikTok. Imagem: Mashable .

Um porta-voz do Google disse: “Estamos constantemente aprimorando nossos recursos de criação de vídeos, principalmente em termos de texto, voz com som natural e áudio perfeitamente sincronizado. Encorajamos os usuários a tentarem o comando novamente caso encontrem resultados inconsistentes e a nos enviarem feedback por meio do recurso de curtir ou não curtir.”

Além disso, o motivo pelo qual esse modelo ignora instruções como "Sem legendas" é porque declarações negativas (que instruem a IA a não fazer algo) são geralmente menos eficazes do que instruções afirmativas, de acordo com Tuhin Chakrabarty, pesquisador de sistemas de IA na Universidade de Stony Brook.

Para resolver completamente o problema, o Google terá que examinar cada frame de todos os vídeos usados ​​para treinar o Veo 3, remover ou rotular novamente os vídeos com legendas antes de treinar o modelo novamente. Isso levará semanas, acrescentou Chakrabarty.

Katerina Cizek, cineasta documentarista e diretora de arte do MIT Open Documentary Lab, argumenta que essa questão demonstra a disposição do Google em lançar produtos que ainda não estão totalmente finalizados.

"O Google precisa de uma vitória", afirmou Cizek. "Eles precisam ser os primeiros a lançar uma ferramenta capaz de criar áudio que corresponda aos movimentos dos lábios. E isso é mais importante do que corrigir o problema das legendas."

Fonte: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Comentário (0)

Deixe um comentário para compartilhar seus sentimentos!

Na mesma categoria

Do mesmo autor

Herança

Figura

Empresas

Atualidades

Sistema político

Local

Produto

Happy Vietnam
Cores do Vietnã

Cores do Vietnã

Experimente o Tambor de Pedra

Experimente o Tambor de Pedra

Escola Feliz

Escola Feliz