Text-zu-Video-KIs wie Sora

Sora (OpenAI)

Sora ist der neueste Name, der bekannt gegeben wurde, hat aber für das größte Aufsehen gesorgt, teils weil es ein Produkt von OpenAI ist – dem bekannten Entwickler von ChatGPT –, vor allem aber wegen der Qualität der Videos, die das Programm allein aus Textbefehlen erstellt.

Der Erfolg des Unternehmens mit ChatGPT verleiht seiner KI zudem ein tiefes Sprachverständnis. Clips, die Soras Fähigkeiten demonstrieren, zeigen Charaktere, die sich so lebensecht bewegen und ausdrücken wie in einem von Menschen gedrehten Film.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — „Surrealistisches“ Video, erstellt von Sora anhand von Textbefehlen

Sora ist aus Sicherheitsgründen noch nicht öffentlich zugänglich. OpenAI wird sorgfältige Maßnahmen ergreifen, bevor die Software der Öffentlichkeit zur Verfügung gestellt wird, insbesondere angesichts der wachsenden Zahl von KI-Nutzern, die für betrügerische Zwecke wie Identitätsdiebstahl oder Straftaten missbraucht werden.

Lumiere (Google)

Lumiere ist ein Produkt von Google, das mithilfe des STUNet-Strukturdiffusionsmodells (Space-Time-U-Net) Videos aus Texteingaben generieren kann. Lumiere fügt keine Einzelbilder zusammen, sondern identifiziert die Details im Video (räumliche Komponente) und verfolgt deren Bewegung und gleichzeitige Veränderung (zeitliche Komponente), wodurch der Prozess reibungslos abläuft.

Wie Sora wurde auch Lumiere noch nicht öffentlich vorgestellt. Das Unternehmen präsentierte dieses Modell erst Ende Januar 2024 nach der Markteinführung von Gemini – dem großen Sprachmodell, das kürzlich mit Bard synchronisiert wurde.

VideoPoet (Google)

Dieses große Sprachmodell (LLM) wurde mit Daten aus einem riesigen Repository von Videos, Fotos, Audiodateien und Texten trainiert, das 2023 von Google Search entwickelt wurde. VideoPoet kann verschiedene Aufgaben mit Eingabequellen wie Text, Fotos und Videos durchführen, um Videos zu erstellen, Inhalte hervorzuheben, Videos in Audio umzuwandeln und Standbilder in Animationen zu verwandeln.

Die ursprüngliche Idee für VideoPoet entstand aus dem Bedürfnis, ein beliebiges autoregressives Sprachmodell in ein Videogenerierungssystem zu übersetzen. Aktuelle autoregressive Sprachmodelle können Text und Programmcode wie Menschen verarbeiten, stoßen aber bei Videos an ihre Grenzen. VideoPoet löst dieses Problem durch Tokenisierung, um Eingaben aus beliebigen Formaten in eine verständliche Sprache zu übersetzen.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Tools zur Erstellung von Videos aus Text stoßen größtenteils an ihre Grenzen.

Emu-Video (Meta)

Neben Google und OpenAI gehört auch Meta zu den großen Technologieunternehmen, die aktiv an der Entwicklung von KI beteiligt sind. Das Unternehmen, dem Facebook gehört, entwickelte außerdem eine KI zur Videoerstellung namens Emu Video, die Bilder in Text umwandeln und diesen anschließend als Daten für die Erstellung von Videoclips verwenden kann.

Emu Video erhält positive Bewertungen von Betatestern: 81 % bevorzugen es gegenüber Imagen Video (Google). Über 90 % wählten das Modell von Meta gegenüber PYOCO (Nvidia) – ein noch besseres Ergebnis als bei Metas Make-A-Video (96 %).

CogVideo (Tsinghua-Universität, China)

Im Gegensatz zu den oben genannten Modellen, die allesamt Produkte weltweit führender Technologieunternehmen sind, ist CogVideo eine KI, die von einem Forschungsteam der Tsinghua -Universität entwickelt wurde – einer der renommiertesten Universitäten Chinas und Asiens. Das Programm basiert auf CogView2, einem vortrainierten Text-zu-Bild-Modell.

Der Computergrafikexperte Glenn Marshall, der CogVideo testete, sagte: „Regisseure könnten ihre Jobs verlieren.“ Sein mit Hilfe von CogVideo erstellter Clip mit dem Titel „The Crow “ erhielt großes Lob und wurde für einen British Academy Film Award (BAFTA) nominiert.

Quellenlink