Vietnam.vn - Nền tảng quảng bá Việt Nam

O grande problema com o Veo 3

Este modelo de IA está inserindo legendas confusas e sem sentido em vídeos automaticamente, mais de um mês após seu lançamento. Essa situação demonstra que o Google está disposto a lançar produtos inacabados para demonstrar suas capacidades em IA.

ZNewsZNews19/07/2025

O Veo3 é o modelo de IA mais recente do Google, lançado no final de maio, que permite aos usuários criar vídeos com base em comandos de voz. Esse modelo atraiu a atenção da comunidade de criadores de conteúdo, pois permite a criação de vídeos com som e diálogos, um recurso não disponível em versões anteriores do modelo do Google, tornando-os mais realistas.

Muitos usuários utilizam videoclipes do Veo 3, com até 8 segundos de duração, para criar comerciais, vídeos ASMR, trailers de filmes de fantasia e entrevistas de rua humorísticas.

O diretor indicado ao Oscar, Darren Aronofsky, usou a ferramenta para criar um curta-metragem chamado Ancestra. Na coletiva de imprensa, o CEO do Google DeepMind, Demis Hassabis, comparou o Veo 3 a um passo "para fora da era do cinema mudo" no cinema.

Legendas "persistentes" da Veo 3

No entanto, muitos usuários descobriram que essa ferramenta não funciona como esperado. Ao criar vídeos com diálogos, o Veo 3 frequentemente insere legendas sem sentido e confusas automaticamente, mesmo quando o comando indica claramente para não adicionar legendas.

Remover essas legendas não é simples. Os usuários são obrigados a recriar o vídeo, gastando "tokens", o que significa gastar mais dinheiro no Google, ou usar ferramentas externas para remover as legendas, ou ainda cortar o vídeo para removê-las.

video AI anh 1

O Veo 3 produz imagens realistas e diálogos que correspondem aos movimentos dos lábios, mas as legendas são incompreensíveis. Foto: Lesswrong .

Josh Woodward, vice-presidente do Google Labs e do Gemini, publicou no X em 9 de junho que o Google havia desenvolvido correções para reduzir o problema de spam. Mas, mais de um mês depois, usuários continuam relatando esse problema no canal do Discord do Google Labs, mostrando que corrigir bugs em grandes modelos de IA não é fácil.

Assim como os modelos anteriores de criação de vídeos com IA do Google, o Veo 3 é um serviço pago, com planos a partir de US$ 249,99 por mês. Para criar um vídeo de 8 segundos, os usuários inserem uma descrição no Flow, Gemini ou outra plataforma. Cada vídeo criado com o Veo 3 custa no mínimo 20 créditos de IA, e os usuários podem adicionar 2.500 créditos por US$ 25 .

Mona Weiss, diretora de comerciais, afirma que recriar filmagens para remover legendas está se tornando um custo significativo. "Se você criar uma cena com diálogos usando o Veo3, cerca de 40% do resultado terá legendas sem sentido, tornando o vídeo inutilizável", diz ela. "Custa muito dinheiro para conseguir uma cena do seu agrado, mas ela acaba sendo inutilizável."

Você também pode gostar
Lionel Messi e Cristiano Ronaldo foram os jogadores mais procurados durante a fase de grupos da Copa do Mundo.
Lionel Messi e Cristiano Ronaldo foram os jogadores mais procurados durante a fase de grupos da Copa do Mundo.Os dados mais recentes mostram um aumento de 1.550% nas buscas por palavras-chave relacionadas à Copa do Mundo de 2026, sendo Lionel Messi e Cristiano Ronaldo os dois jogadores mais pesquisados ​​durante a fase de grupos.
Os chips de memória são escassos na onda da IA.
Os chips de memória são escassos na onda da IA.VTV.vn - A febre da IA ​​está apertando o fornecimento de memória, com os fornecedores priorizando grandes clientes e aumentando os custos para pequenas empresas.
Funcionalidades para aplicações de identificação eletrônica destinadas a prevenir fraudes online.
Funcionalidades para aplicações de identificação eletrônica destinadas a prevenir fraudes online.Segundo as estatísticas de Singapura, os golpes online foram o segundo tipo de fraude mais comum em 2025, depois da fraude no comércio eletrônico, com perdas totais de quase 40 milhões de dólares de Singapura (mais de 30 milhões de dólares americanos).
video AI anh 2

Legendas sem sentido são difíceis de remover no Veo 3. Foto: Technology Review .

Quando Weiss relatou o problema ao Google Labs via Discord, na esperança de recuperar seus créditos perdidos, a equipe de suporte a encaminhou para o departamento de suporte oficial da empresa. Eles ofereceram um reembolso da assinatura do Veo 3, mas não dos créditos. Weiss recusou, pois aceitar o reembolso significaria perder o acesso ao modelo.

A equipe de suporte do Discord do Google Labs afirmou que as legendas podem ser ativadas automaticamente se a voz for detectada e que estão trabalhando para corrigir esse problema.

O problema decorre da abordagem do Google.

O motivo pelo qual o Veo 3 insere legendas automaticamente decorre dos dados com os quais o modelo foi treinado.

Embora o Google não tenha divulgado detalhes sobre as categorias de dados usadas para treinar seus modelos, é provável que incluam vídeos de plataformas como YouTube e TikTok, muitos dos quais contêm legendas. Essas legendas são incorporadas diretamente nos quadros do vídeo, o que dificulta sua remoção antes de serem usadas como dados de treinamento, de acordo com Shuo Niu, pesquisador de plataformas de compartilhamento de vídeo e IA na Universidade Clark (Massachusetts, EUA).

"Os modelos de texto para vídeo são treinados usando aprendizado por reforço para criar conteúdo que imita vídeos feitos por humanos e, se esses vídeos tiverem legendas, o modelo pode 'aprender' que adicionar legendas torna o produto mais parecido com um vídeo feito por humanos", explicou ele.

video AI anh 3

O Veo 3 foi afetado por dados de treinamento de modelos provenientes de vídeos do YouTube e do TikTok. Imagem: Mashable .

Um porta-voz do Google disse: “Estamos constantemente aprimorando nossos recursos de criação de vídeos, principalmente em termos de texto, voz com som natural e áudio perfeitamente sincronizado. Encorajamos os usuários a tentarem o comando novamente caso encontrem resultados inconsistentes e a nos enviarem feedback por meio do recurso de curtir ou não curtir.”

O Vietnã incentiva empresas americanas a expandirem seus investimentos em alta tecnologia.
O Vietnã incentiva empresas americanas a expandirem seus investimentos em alta tecnologia.Na manhã de 26 de junho, na sede do governo, o vice-primeiro-ministro Ho Quoc Dung recebeu o Sr. Jeff Place, diretor da cadeia de suprimentos do Coherent Group (EUA). Durante a reunião, o vice-primeiro-ministro afirmou que o Vietnã incentiva as empresas americanas a expandirem seus investimentos, especialmente nos setores de alta tecnologia, inovação e semicondutores.
Incentivar as empresas americanas a expandirem seus investimentos em setores de alta tecnologia.
Incentivar as empresas americanas a expandirem seus investimentos em setores de alta tecnologia.O vice-primeiro-ministro Ho Quoc Dung afirmou que o Vietnã acolhe com satisfação as empresas americanas que desejam continuar expandindo suas operações no país, especialmente nos setores de alta tecnologia e de alto valor agregado.
O Vietnã e os Estados Unidos reforçam a cooperação para lidar com as consequências da guerra.
O Vietnã e os Estados Unidos reforçam a cooperação para lidar com as consequências da guerra.VTV.vn - No dia 22 de junho, o Secretário-Geral e Presidente To Lam recebeu o Secretário Interino da Marinha dos EUA, Hung Cao.

Além disso, o motivo pelo qual esse modelo ignora instruções como "Sem legendas" é porque declarações negativas (que instruem a IA a não fazer algo) são geralmente menos eficazes do que instruções afirmativas, de acordo com Tuhin Chakrabarty, pesquisador de sistemas de IA na Universidade de Stony Brook.

Para resolver completamente o problema, o Google terá que examinar cada frame de todos os vídeos usados ​​para treinar o Veo 3, remover ou rotular novamente os vídeos com legendas antes de treinar o modelo novamente. Isso levará semanas, acrescentou Chakrabarty.

Katerina Cizek, cineasta documentarista e diretora de arte do MIT Open Documentary Lab, argumenta que essa questão demonstra a disposição do Google em lançar produtos que ainda não estão totalmente finalizados.

"O Google precisa de uma vitória", afirmou Cizek. "Eles precisam ser os primeiros a lançar uma ferramenta capaz de criar áudio que corresponda aos movimentos dos lábios. E isso é mais importante do que corrigir o problema das legendas."

Fonte: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html

Tendências por categoria

Mais lidos

Google Trends

Do mesmo autor

Herança

Figura

Empresas

Atualidades

Sistema político

Local

Sản phẩm