Des IA de conversion de texte en vidéo comme Sora

Sora (OpenAI)

Sora est le nom le plus récent à être annoncé mais celui qui a fait le plus de bruit, en partie parce qu'il s'agit d'un produit d'OpenAI - le célèbre développeur de ChatGPT, mais surtout en raison de la qualité des vidéos que le programme crée à partir de simples commandes textuelles.

Le succès de ChatGPT confère également à l'IA de l'entreprise une compréhension approfondie du langage. Des clips illustrant les capacités de Sora montrent des personnages se déplaçant et s'exprimant avec un réalisme digne d'un film.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Vidéo « surréaliste » créée par Sora à partir de commandes textuelles

Mais Sora n'est pas encore accessible au public pour des raisons de sécurité. OpenAI prendra des mesures rigoureuses avant de le rendre accessible au grand public, notamment compte tenu du nombre croissant d'utilisateurs d'IA qui l'utilisent à des fins malveillantes, en usurpant leur identité ou à des fins illégales.

Lumière (Google)

Lumière est un produit de Google capable de générer des vidéos à partir de saisie de texte, grâce au modèle de diffusion structuré STUNet (Space-Time-U-Net). Lumière ne s'embarrasse pas d'assemblage d'images fixes : l'IA identifie les détails de la vidéo (partie spatiale), suit leurs mouvements et leurs évolutions simultanées (partie temporelle), contribuant ainsi au bon déroulement du processus.

Comme Sora, Lumière n'a pas encore été lancé au public. L'entreprise ne l'a présenté que fin janvier 2024, après la sortie de Gemini, un modèle de langage majeur qui vient d'être synchronisé avec Bard.

VidéoPoet (Google)

Ce grand modèle de langage (LLM) est formé à partir d'un énorme référentiel de vidéos, d'images, d'audio et de texte développé par Google Search en 2023. VideoPoet peut effectuer diverses tâches à partir de sources d'entrée telles que du texte, des images, des vidéos... pour créer des vidéos, mettre en évidence du contenu, convertir des vidéos en audio, transformer des images fixes en animations...

L'idée originale de VideoPoet est née du besoin de convertir tout modèle de langage autorégressif en système de génération vidéo. Les modèles de langage autorégressifs actuels peuvent traiter du texte et du code de programmation comme les humains, mais ils peinent à traiter la vidéo. VideoPoet résout ce problème en utilisant la tokenisation pour convertir les entrées de n'importe quel format en un langage compréhensible.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Les outils de création de vidéos à partir de texte testent de plus en plus leurs limites

Vidéo Emu (méta)

Outre Google et OpenAI, Meta fait partie des géants de la technologie actifs dans le développement de l'IA. L'entreprise propriétaire de Facebook a également développé une IA de création vidéo appelée Emu Video, capable de convertir des images en texte et d'exploiter ces données pour créer des clips.

Emu Video reçoit des avis positifs de la part des bêta-testeurs : 81 % le préfèrent à Imagen Video (Google). Plus de 90 % ont préféré le modèle de Meta à PYOCO (Nvidia), et il a même surpassé Make-A-Video de Meta (choisi par 96 %).

CogVideo (Université Tsinghua, Chine)

Contrairement aux modèles ci-dessus, tous issus des plus grandes entreprises technologiques mondiales , CogVideo est une IA développée par une équipe de recherche de l'Université Tsinghua, une université prestigieuse de premier plan en Chine et en Asie. Le programme est basé sur CogView2, un modèle texte-image pré-entraîné.

Glenn Marshall, expert en art numérique et testeur de CogVideo, a déclaré que « les réalisateurs pourraient perdre leur emploi ». Le clip intitulé The Crow , réalisé avec l'aide de CogVideo, a été salué par la critique et nominé aux British Academy Film Awards (BAFTA).

Lien source