Sora (OpenAI)
Sora é o nome mais recente a ser anunciado, mas já causou grande alvoroço, em parte por ser um produto da OpenAI - a famosa desenvolvedora do ChatGPT - mas principalmente pela qualidade dos vídeos que o programa cria a partir de simples comandos de texto.
O sucesso da empresa com o ChatGPT também confere à sua IA uma profunda compreensão da linguagem. Vídeos demonstrando as habilidades de Sora mostram personagens se movendo e se expressando de uma forma tão realista quanto em um filme filmado por humanos.
Vídeo "surrealista" criado por Sora a partir de comandos de texto.
Mas, por motivos de segurança, Sora ainda não está disponível para o público em geral. A OpenAI tomará medidas cautelosas antes de disponibilizá-la ao público, especialmente considerando o crescente número de usuários de IA que estão sendo usados para fins nefastos, como se passar por outros usuários ou cometer crimes.
Lumiere (Google)
O Lumiere é um produto do Google que também consegue gerar vídeos a partir de texto, com base no modelo de difusão estrutural STUNet (Space-Time-U-Net). O Lumiere não se preocupa em juntar quadros estáticos, mas sim em identificar os detalhes no vídeo (parte espacial), rastreando como eles se movem e mudam simultaneamente (parte temporal), ajudando assim o processo a funcionar sem problemas.
Assim como Sora, Lumiere ainda não foi lançado ao público. A empresa só apresentou esse modelo no final de janeiro de 2024, após o lançamento de Gemini — o modelo de linguagem mais abrangente que acaba de ser sincronizado com Bard.
VideoPoeta (Google)
Este modelo de linguagem abrangente (LLM, na sigla em inglês) é treinado a partir de um enorme repositório de vídeos, fotos, áudio e texto desenvolvido pela Busca do Google em 2023. O VideoPoet pode executar diversas tarefas a partir de fontes de entrada como texto, fotos, vídeos, etc., para criar vídeos, destacar conteúdo, converter vídeos em áudio, transformar imagens estáticas em animações, etc.
A ideia original do VideoPoet surgiu da necessidade de traduzir qualquer modelo de linguagem autorregressivo em um sistema de geração de vídeo. Os modelos de linguagem autorregressivos atuais conseguem processar texto e código de programação como humanos, mas têm dificuldades com vídeo. O VideoPoet resolve isso usando tokenização para traduzir entradas de qualquer formato para uma linguagem que ele possa entender.
As ferramentas para criar vídeos a partir de texto estão, em sua maioria, testando seus limites.
Vídeo Emu (Meta)
Além do Google e da OpenAI, a Meta também é uma das grandes empresas de tecnologia que atua na criação de IA. A empresa proprietária do Facebook também desenvolveu uma IA para criação de vídeos chamada Emu Video, capaz de converter imagens em texto e usá-lo como dados para criar vídeos curtos.
O Emu Video está recebendo avaliações positivas dos testadores beta, com 81% preferindo-o ao Imagen Video (Google). Mais de 90% escolheram o modelo da Meta em vez do PYOCO (Nvidia), um resultado ainda melhor do que o Make-A-Video da Meta (96%).
CogVideo (Universidade de Tsinghua, China)
Diferentemente dos modelos acima, que são todos produtos das principais empresas de tecnologia do mundo , o CogVideo é uma IA desenvolvida por uma equipe de pesquisa da Universidade Tsinghua — uma das instituições de ensino mais prestigiadas da China e da Ásia. O programa é baseado no CogView2, um modelo pré-treinado de conversão de texto em imagem.
O especialista em arte digital Glenn Marshall, que testou o CogVideo, afirmou que "diretores podem perder seus empregos". Seu curta-metragem, intitulado "The Crow ", criado com a ajuda do CogVideo, recebeu muitos elogios e foi indicado ao prêmio BAFTA (British Academy Film Award).
Link da fonte






Comentário (0)