Text-till-video AI:er som Sora

[annons_1]

Sora (OpenAI)

Sora är det nyaste namnet som tillkännagivits men har orsakat mest uppståndelse, delvis för att det är en produkt från OpenAI – den berömda utvecklaren av ChatGPT, men främst på grund av kvaliteten på de videor som programmet skapar från enbart textkommandon.

Företagets framgångar med ChatGPT ger också deras AI en djup förståelse för språk. Klipp som demonstrerar Soras förmågor visar karaktärer som rör sig och uttrycker sig på ett sätt som är lika verklighetstroget som en människofilm.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — "Surrealistisk" video skapad av Sora från textkommandon

Men Sora är ännu inte tillgängligt för allmänheten, av säkerhetsskäl. OpenAI kommer att vidta noggranna åtgärder innan det görs tillgängligt för allmänheten, särskilt med tanke på det växande antalet AI-användare som används för olagliga ändamål, såsom att utge sig för att vara användare eller begå brott.

Lumiere (Google)

Lumiere är en produkt från Google, som också kan generera videor från textinmatning, baserat på STUNets (Space-Time-U-Net) strukturdiffusionsmodell. Lumiere bryr sig inte om att sy ihop stillbilder, utan istället identifierar denna AI detaljerna i videon (den rumsliga delen), spårar hur de rör sig och förändras samtidigt (den temporala delen), vilket hjälper processen att löpa smidigt.

Liksom Sora har Lumiere inte släppts till allmänheten. Företaget introducerade den här modellen först i slutet av januari 2024 efter lanseringen av Gemini – den stora språkmodellen som just har synkroniserats med Bard.

VideoPoet (Google)

Denna stora språkmodell (LLM) är tränad från ett enormt arkiv av videor, foton, ljud och text som utvecklades av Google Search år 2023. VideoPoet kan utföra olika uppgifter från inmatningskällor som text, foton, videor... för att skapa videor, markera innehåll, konvertera videor till ljud, förvandla stillbilder till animationer...

Den ursprungliga idén till VideoPoet härrörde från behovet att översätta vilken autoregressiv språkmodell som helst till ett videogenereringssystem. Nuvarande autoregressiva språkmodeller kan bearbeta text och programmeringskod som människor, men har svårt när det gäller video. VideoPoet löser detta genom att använda tokenisering för att översätta inmatning från vilket format som helst till ett språk som den kan förstå.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Verktyg för att skapa videor från text testar mestadels sina gränser

Emu-video (meta)

Förutom Google och OpenAI är Meta också en av de stora teknikföretagen som är aktiva inom AI. Företaget som äger Facebook utvecklade också en AI för videoskapande som heter Emu Video, som kan konvertera bilder till text och sedan använda den som data för att skapa klipp.

Emu Video får positiva recensioner från betatestare, där 81 % föredrar det framför Imagen Video (Google). Över 90 % valde Metas modell framför PYOCO (Nvidia), vilket till och med var bättre än Metas Make-A-Video (96 %).

CogVideo (Tsinghuauniversitetet, Kina)

Till skillnad från ovanstående modeller, som alla är produkter från världens ledande teknikföretag, är CogVideo en AI som utvecklats av ett forskarteam från Tsinghua University – en prestigefylld högskola i både Kina och Asien. Programmet är baserat på CogView2, en förtränad text-till-bild-modell.

Datorkonstexperten Glenn Marshall, som testade CogVideo, sa att "regissörer kan förlora sina jobb." Hans klipp, kallat The Crow , skapat med hjälp av CogVideo, fick stort beröm och nominerades till en British Academy Film Award (BAFTA).

[annons_2]
Källänk