Sora (OpenAI)
Sora est le dernier nom annoncé, mais c'est celui qui a suscité le plus d'émoi, en partie parce qu'il s'agit d'un produit d'OpenAI, le célèbre développeur de ChatGPT, mais surtout en raison de la qualité des vidéos que le programme crée à partir de simples commandes textuelles.
Le succès de ChatGPT confère également à son IA une compréhension approfondie du langage. Les extraits vidéo illustrant les capacités de Sora montrent des personnages qui bougent et s'expriment d'une manière aussi réaliste qu'un film tourné par des humains.
Vidéo « surréaliste » créée par Sora à partir de commandes textuelles
Mais Sora n'est pas encore accessible au grand public pour des raisons de sécurité. OpenAI prendra des mesures rigoureuses avant de le rendre disponible, notamment compte tenu du nombre croissant d'utilisateurs d'IA détournés à des fins malveillantes, comme l'usurpation d'identité ou la commission de crimes.
Lumière (Google)
Lumière est un produit Google capable de générer des vidéos à partir de texte, grâce au modèle de diffusion de structure STUNet (Space-Time-U-Net). Au lieu d'assembler des images fixes, Lumière identifie les détails de la vidéo (partie spatiale), suit leurs mouvements et leurs variations (partie temporelle), assurant ainsi un processus fluide.
À l'instar de Sora, Lumière n'a pas encore été rendu public. La société n'a présenté ce modèle qu'à la fin du mois de janvier 2024, après le lancement de Gemini, le vaste modèle de langage qui vient d'être synchronisé avec Bard.
VideoPoet (Google)
Ce modèle de langage à grande échelle (LLM) est entraîné à partir d'un vaste référentiel de vidéos, photos, fichiers audio et textes développé par Google Search en 2023. VideoPoet peut effectuer diverses tâches à partir de sources d'entrée telles que du texte, des photos, des vidéos… pour créer des vidéos, mettre en évidence du contenu, convertir des vidéos en audio, transformer des images fixes en animations…
L'idée originale de VideoPoet est née du besoin de traduire n'importe quel modèle de langage autorégressif en un système de génération vidéo. Les modèles de langage autorégressifs actuels peuvent traiter le texte et le code informatique comme des humains, mais rencontrent des difficultés avec la vidéo. VideoPoet résout ce problème en utilisant la tokenisation pour traduire les données d'entrée, quel que soit leur format, en un langage compréhensible par le système.
Les outils de création de vidéos à partir de texte sont pour la plupart en train de tester leurs limites.
Vidéo Emu (Méta)
Outre Google et OpenAI, Meta fait également partie des géants de la tech actifs dans le développement de l'IA. La société propriétaire de Facebook a aussi développé une IA de création vidéo appelée Emu Video, capable de convertir des images en texte et de l'utiliser comme données pour créer des clips.
Emu Video reçoit des avis positifs de la part des bêta-testeurs : 81 % le préfèrent à Imagen Video (Google). Plus de 90 % ont choisi le modèle de Meta plutôt que PYOCO (Nvidia), un résultat même supérieur à celui de Make-A-Video (96 %).
CogVideo (Université Tsinghua, Chine)
Contrairement aux modèles précédents, tous issus des plus grandes entreprises technologiques mondiales , CogVideo est une IA développée par une équipe de recherche de l'université Tsinghua, une institution prestigieuse de Chine et d'Asie. Ce programme repose sur CogView2, un modèle de conversion texte-image pré-entraîné.
Glenn Marshall, expert en art numérique qui a testé CogVideo, a déclaré que « les réalisateurs pourraient perdre leur emploi ». Son clip, intitulé The Crow , créé avec l'aide de CogVideo, a été très bien accueilli et nominé aux BAFTA.
Lien source






Comment (0)