Inteligências artificiais de texto para vídeo como Sora

Sora (OpenAI)

Sora é o nome mais recente a ser anunciado, mas já causou grande alvoroço, em parte por ser um produto da OpenAI - a famosa desenvolvedora do ChatGPT - mas principalmente pela qualidade dos vídeos que o programa cria a partir de simples comandos de texto.

O sucesso da empresa com o ChatGPT também confere à sua IA uma profunda compreensão da linguagem. Vídeos demonstrando as habilidades de Sora mostram personagens se movendo e se expressando de uma forma tão realista quanto em um filme filmado por humanos.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Vídeo "surrealista" criado por Sora a partir de comandos de texto.

Mas, por motivos de segurança, Sora ainda não está disponível para o público em geral. A OpenAI tomará medidas cautelosas antes de disponibilizá-la ao público, especialmente considerando o crescente número de usuários de IA que estão sendo usados para fins nefastos, como se passar por outros usuários ou cometer crimes.

Lumiere (Google)

O Lumiere é um produto do Google que também é capaz de gerar vídeos a partir de texto, com base no modelo de difusão estrutural STUNet (Space-Time-U-Net). O Lumiere não se preocupa em juntar quadros estáticos, mas, em vez disso, essa IA identifica os detalhes no vídeo (parte espacial), rastreia como eles se movem e mudam simultaneamente (parte temporal), ajudando assim o processo a funcionar sem problemas.

Assim como Sora, Lumiere ainda não foi lançado ao público. A empresa só apresentou esse modelo no final de janeiro de 2024, após o lançamento de Gemini — o modelo de linguagem mais abrangente que acaba de ser sincronizado com Bard.

VideoPoeta (Google)

Este modelo de linguagem abrangente (LLM, na sigla em inglês) é treinado a partir de um enorme repositório de vídeos, fotos, áudio e texto desenvolvido pela Busca do Google em 2023. O VideoPoet pode executar diversas tarefas a partir de fontes de entrada como texto, fotos, vídeos, etc., para criar vídeos, destacar conteúdo, converter vídeos em áudio, transformar imagens estáticas em animações, etc.

A ideia original do VideoPoet surgiu da necessidade de traduzir qualquer modelo de linguagem autorregressivo em um sistema de geração de vídeo. Os modelos de linguagem autorregressivos atuais conseguem processar texto e código de programação como humanos, mas têm dificuldades com vídeo. O VideoPoet resolve isso usando tokenização para traduzir entradas de qualquer formato para uma linguagem que ele possa entender.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — As ferramentas para criar vídeos a partir de texto estão, em sua maioria, testando seus limites.

Vídeo Emu (Meta)

Além do Google e da OpenAI, a Meta também é uma das grandes empresas de tecnologia que atua na criação de IA. A empresa proprietária do Facebook também desenvolveu uma IA para criação de vídeos chamada Emu Video, capaz de converter imagens em texto e usá-lo como dados para criar vídeos curtos.

O Emu Video está recebendo avaliações positivas dos testadores beta, com 81% preferindo-o ao Imagen Video (Google). Mais de 90% escolheram o modelo da Meta em vez do PYOCO (Nvidia), um resultado ainda melhor do que o Make-A-Video da Meta (96%).

CogVideo (Universidade de Tsinghua, China)

Diferentemente dos modelos acima, que são todos produtos das principais empresas de tecnologia do mundo , o CogVideo é uma IA desenvolvida por uma equipe de pesquisa da Universidade Tsinghua — uma das instituições de ensino mais prestigiadas da China e da Ásia. O programa é baseado no CogView2, um modelo pré-treinado de conversão de texto em imagem.

O especialista em arte digital Glenn Marshall, que testou o CogVideo, afirmou que "diretores podem perder seus empregos". Seu curta-metragem, intitulado "The Crow ", criado com a ajuda do CogVideo, recebeu muitos elogios e foi indicado ao prêmio BAFTA (British Academy Film Award).

Link da fonte