IA de texto a vídeo como Sora

[anuncio_1]

Sora (OpenAI)

Sora es el nombre más reciente en ser anunciado pero el que ha causado más revuelo, en parte porque es un producto de OpenAI, el famoso desarrollador de ChatGPT, pero principalmente por la calidad de los vídeos que el programa crea solo con comandos de texto.

El éxito de la compañía con ChatGPT también le otorga a su IA una profunda comprensión del lenguaje. Los clips que demuestran las habilidades de Sora muestran a los personajes moviéndose y expresándose con la misma realismo que una película filmada por humanos.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Vídeo "surrealista" creado por Sora a partir de comandos de texto

Sin embargo, Sora aún no está disponible para el público por razones de seguridad. OpenAI tomará precauciones antes de hacerlo público, especialmente dado el creciente número de usuarios de IA que se utilizan con fines maliciosos, como suplantar la identidad de otros usuarios o cometer delitos.

Lumière (Google)

Lumiere es un producto de Google que también permite generar videos a partir de texto, basándose en el modelo de difusión de estructura STUNet (Espacio-Tiempo-U-Net). Lumiere no se molesta en unir imágenes fijas, sino que su IA identifica los detalles del video (parte espacial) y rastrea cómo se mueven y cambian simultáneamente (parte temporal), lo que facilita el proceso.

Al igual que Sora, Lumiere aún no se ha lanzado al público. La compañía presentó este modelo a finales de enero de 2024, tras el lanzamiento de Gemini, el modelo de lenguaje de gran tamaño que acaba de sincronizarse con Bard.

VideoPoet (Google)

Este gran modelo de lenguaje (LLM) se entrena a partir de un enorme repositorio de videos, fotos, audio y texto desarrollado por Google Search en 2023. VideoPoet puede realizar varias tareas a partir de fuentes de entrada como texto, fotos, videos... para crear videos, resaltar contenido, convertir videos a audio, convertir imágenes fijas en animaciones...

La idea original de VideoPoet surgió de la necesidad de traducir cualquier modelo de lenguaje autorregresivo a un sistema de generación de video. Los modelos de lenguaje autorregresivo actuales pueden procesar texto y código de programación como los humanos, pero presentan dificultades con el video. VideoPoet soluciona este problema mediante la tokenización para traducir la entrada de cualquier formato a un lenguaje comprensible.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Las herramientas para crear vídeos a partir de texto están probando en gran medida sus límites

Vídeo de Emu (Meta)

Además de Google y OpenAI, Meta es una de las grandes tecnológicas que se dedica a la creación de IA. La empresa propietaria de Facebook también desarrolló una IA para crear videos llamada Emu Video, que puede convertir imágenes en texto y luego usarlas como datos para crear clips.

Emu Video está recibiendo críticas positivas de los usuarios de la versión beta, con un 81% que lo prefiere a Imagen Video (Google). Más del 90% eligió el modelo de Meta en lugar de PYOCO (Nvidia), incluso mejor que Make-A-Video de Meta (96%).

CogVideo (Universidad de Tsinghua, China)

A diferencia de los modelos anteriores, todos ellos productos de las principales empresas tecnológicas del mundo , CogVideo es una IA desarrollada por un equipo de investigación de la Universidad de Tsinghua, una institución de prestigio en China y Asia. El programa se basa en CogView2, un modelo de texto a imagen preentrenado.

El experto en arte digital Glenn Marshall, quien probó CogVideo, afirmó que «los directores podrían perder sus trabajos». Su clip, titulado «El Cuervo », creado con la ayuda de CogVideo, recibió grandes elogios y fue nominado a los Premios de la Academia Británica de Cine (BAFTA).

[anuncio_2]
Enlace de origen