Искусственный интеллект для преобразования текста в видео, такой как Sora

Сора (OpenAI)

Sora — самое новое из объявленных названий, но оно уже вызвало наибольший ажиотаж, отчасти потому, что это продукт OpenAI — известного разработчика ChatGPT, но в основном из-за качества видео, которые программа создает из простых текстовых команд.

Успех компании с ChatGPT также обеспечивает её ИИ глубокое понимание языка. В видеороликах, демонстрирующих способности Соры, персонажи двигаются и выражают свои мысли так же реалистично, как в фильме, снятом человеком.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — «Сюрреалистическое» видео, созданное Сорой из текстовых команд

Однако Sora пока недоступна для публичного использования по соображениям безопасности. OpenAI примет все необходимые меры, прежде чем сделать её общедоступной, особенно учитывая растущее число пользователей ИИ, используемых в преступных целях, например, для выдачи себя за других пользователей или совершения преступлений.

Люмьер (Google)

Lumiere — это продукт от Google, который также способен генерировать видео из текстового ввода, основанный на модели диффузии структур STUNet (Space-Time-U-Net). Lumiere не занимается сшивкой кадров, а вместо этого ИИ распознаёт детали в видео (пространственная составляющая), отслеживает их движение и изменение одновременно (временная составляющая), тем самым обеспечивая плавность процесса.

Как и Sora, Lumiere пока не был представлен широкой публике. Компания представила эту модель лишь в конце января 2024 года, после запуска Gemini — крупной языковой модели, которая недавно была синхронизирована с Bard.

ВидеоПоэт (Google)

Эта большая языковая модель (LLM) обучается на основе огромного хранилища видео, фотографий, аудио и текста, разработанного Google Search в 2023 году. VideoPoet может выполнять различные задачи с такими источниками входных данных, как текст, фотографии, видео... для создания видео, выделения контента, преобразования видео в аудио, превращения статичных изображений в анимацию...

Первоначальная идея VideoPoet возникла из необходимости транслировать любую модель языка авторегрессии в систему генерации видео. Современные модели языка авторегрессии могут обрабатывать текст и программный код подобно человеку, но испытывают трудности с обработкой видео. VideoPoet решает эту проблему, используя токенизацию для перевода входных данных из любого формата на понятный ему язык.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Инструменты для создания видео из текста в основном проверяют свои пределы

Эму Видео (Мета)

Помимо Google и OpenAI, Meta также является одним из крупнейших технологических гигантов, активно занимающихся разработкой ИИ. Компания, которой принадлежит Facebook, также разработала ИИ для создания видео под названием Emu Video, который может преобразовывать изображения в текст и затем использовать его в качестве данных для создания клипов.

Emu Video получает положительные отзывы от бета-тестеров: 81% предпочитают его Imagen Video (Google). Более 90% выбрали модель Meta вместо PYOCO (Nvidia), что даже лучше, чем Make-A-Video от Meta (96%).

CogVideo (Университет Цинхуа, Китай)

В отличие от вышеперечисленных моделей, которые являются продуктами ведущих мировых технологических компаний, CogVideo — это искусственный интеллект, разработанный исследовательской группой из Университета Цинхуа — одного из самых престижных учебных заведений в Китае и Азии. Программа основана на CogView2 — предобученной модели преобразования текста в изображение.

Эксперт по компьютерному искусству Гленн Маршалл, тестировавший CogVideo, заявил, что «режиссёры могут потерять работу». Его клип под названием «Ворон », созданный с помощью CogVideo, получил высокую оценку и был номинирован на премию Британской академии кино (BAFTA).

Ссылка на источник