Tekst-naar-video-AI's zoals Sora

Sora (Open AI)

Sora is de nieuwste naam die is aangekondigd, maar heeft de meeste ophef veroorzaakt. Dit komt deels doordat het een product is van OpenAI, de beroemde ontwikkelaar van ChatGPT, maar vooral vanwege de kwaliteit van de video's die het programma maakt op basis van louter tekstopdrachten.

Het succes van het bedrijf met ChatGPT geeft de AI ook een diepgaand begrip van taal. Clips die Sora's vaardigheden demonstreren, tonen personages die bewegen en zich uiten op een manier die net zo levensecht is als een film met menselijke schoten.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — "Surrealistische" video gemaakt door Sora op basis van tekstcommando's

Maar Sora is om veiligheidsredenen nog niet beschikbaar voor publiek gebruik. OpenAI zal zorgvuldige maatregelen nemen voordat het voor het grote publiek beschikbaar wordt gesteld, vooral gezien het groeiende aantal AI-gebruikers dat wordt gebruikt voor snode doeleinden, zoals het imiteren van gebruikers of het plegen van misdaden.

Lumiere (Google)

Lumiere is een product van Google dat ook video's kan genereren uit tekstinvoer, gebaseerd op het STUNet (Space-Time-U-Net) structuurdiffusiemodel. Lumiere houdt zich niet bezig met het aan elkaar plakken van stilstaande beelden, maar identificeert in plaats daarvan de details in de video (ruimtelijk deel) en volgt hoe ze bewegen en veranderen (tijdelijk deel), waardoor het proces soepel verloopt.

Net als Sora is Lumiere nog niet publiekelijk uitgebracht. Het bedrijf introduceerde dit model pas eind januari 2024, na de lancering van Gemini – het grote taalmodel dat onlangs is gesynchroniseerd met Bard.

VideoPoet (Google)

Dit grote taalmodel (LLM) is getraind met behulp van een enorme database met video's, foto's, audio en tekst, ontwikkeld door Google Zoeken in 2023. VideoPoet kan verschillende taken uitvoeren op basis van invoerbronnen zoals tekst, foto's, video's... om video's te maken, content te markeren, video's naar audio te converteren, stilstaande beelden om te zetten in animaties...

Het oorspronkelijke idee voor VideoPoet kwam voort uit de behoefte om elk autoregressief taalmodel te vertalen naar een videogeneratiesysteem. Huidige autoregressieve taalmodellen kunnen tekst en programmeercode verwerken zoals mensen dat doen, maar hebben moeite met video. VideoPoet lost dit op door tokenisatie te gebruiken om input van elk formaat te vertalen naar een taal die het begrijpt.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Hulpmiddelen voor het maken van video's uit tekst testen meestal hun grenzen

Emu-video (Meta)

Naast Google en OpenAI is Meta ook een van de grote techbedrijven die actief is in het creëren van AI. Het bedrijf dat eigenaar is van Facebook ontwikkelde ook een AI voor videoproductie genaamd Emu Video, die afbeeldingen kan omzetten in tekst en deze vervolgens als data kan gebruiken om clips te maken.

Emu Video krijgt positieve recensies van bètatesters: 81% geeft de voorkeur aan Imagen Video (Google). Meer dan 90% verkiest Meta's model boven PYOCO (Nvidia), zelfs beter dan Meta's Make-A-Video (96%).

CogVideo (Tsinghua Universiteit, China)

In tegenstelling tot de bovenstaande modellen, die allemaal producten zijn van 's werelds toonaangevende technologiebedrijven, is CogVideo een AI die is ontwikkeld door een onderzoeksteam van de Tsinghua Universiteit , een prestigieuze onderwijsinstelling in China en Azië. Het programma is gebaseerd op CogView2, een vooraf getraind tekst-naar-beeldmodel.

Computerkunstexpert Glenn Marshall, die CogVideo testte, zei dat "regisseurs hun baan zouden kunnen verliezen." Zijn clip, genaamd The Crow , die hij met behulp van CogVideo maakte, kreeg veel lof en werd genomineerd voor een British Academy Film Award (BAFTA).

Bronlink