الذكاء الاصطناعي لتحويل النص إلى فيديو مثل Sora

[إعلان 1]

سورا (OpenAI)

Sora هو أحدث اسم تم الإعلان عنه ولكنه تسبب في أكبر قدر من الضجة، ويرجع ذلك جزئيًا إلى أنه منتج من OpenAI - المطور الشهير لـ ChatGPT، ولكن بشكل رئيسي بسبب جودة مقاطع الفيديو التي ينشئها البرنامج من أوامر نصية فقط.

كما أن نجاح الشركة مع ChatGPT يمنح ذكائها الاصطناعي فهمًا عميقًا للغة. تُظهر المقاطع التي تُظهر قدرات سورا شخصيات تتحرك وتعبّر عن نفسها بطريقة واقعية كفيلم مصور.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — فيديو "سريالي" من إنتاج سورا باستخدام أوامر نصية

لكن سورا غير متاح للاستخدام العام حتى الآن لأسباب أمنية. ستتخذ OpenAI إجراءات دقيقة قبل إتاحته للعامة، لا سيما في ظل تزايد عدد مستخدمي الذكاء الاصطناعي الذين يُستغلون لأغراض خبيثة، مثل انتحال هوية المستخدمين أو ارتكاب الجرائم.

لوميير (جوجل)

Lumiere منتج من جوجل، قادر أيضًا على إنشاء مقاطع فيديو من خلال إدخال نص، استنادًا إلى نموذج انتشار البنية STUNet (Space-Time-U-Net). لا يُعنى Lumiere بربط اللقطات الثابتة معًا، بل يُحدد هذا الذكاء الاصطناعي تفاصيل الفيديو (الجزء المكاني)، ويتتبع حركتها وتغيرها في الوقت نفسه (الجزء الزمني)، مما يُسهّل سير العملية بسلاسة.

مثل سورا، لم يُطرح لوميير للجمهور. لم تُقدّم الشركة هذا النموذج إلا في أواخر يناير 2024 بعد إطلاق جيميني، وهو نموذج لغوي ضخم تمّت مزامنته مؤخرًا مع بارد.

فيديو بويت (جوجل)

يتم تدريب نموذج اللغة الكبير هذا (LLM) من مستودع ضخم من مقاطع الفيديو والصور والصوت والنصوص التي طورتها Google Search في عام 2023. يمكن لبرنامج VideoPoet تنفيذ مهام مختلفة من مصادر الإدخال مثل النصوص والصور ومقاطع الفيديو... لإنشاء مقاطع فيديو، وتسليط الضوء على المحتوى، وتحويل مقاطع الفيديو إلى صوت، وتحويل الصور الثابتة إلى رسوم متحركة...

انبثقت الفكرة الأصلية لـ VideoPoet من الحاجة إلى ترجمة أي نموذج لغوي انحداري ذاتي إلى نظام توليد فيديو. تستطيع نماذج اللغة الانحدارية الذاتية الحالية معالجة النصوص وأكواد البرمجة كالبشر، لكنها تواجه صعوبات في التعامل مع الفيديو. يحلّ VideoPoet هذه المشكلة باستخدام الترميز لترجمة المُدخلات من أي صيغة إلى لغة يفهمها.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — تختبر أدوات إنشاء مقاطع الفيديو من النصوص حدودها في الغالب

فيديو إيمو (ميتا)

إلى جانب جوجل وOpenAI، تُعد ميتا أيضًا من شركات التكنولوجيا الكبرى الناشطة في تطوير الذكاء الاصطناعي. كما طورت الشركة المالكة لفيسبوك نظام ذكاء اصطناعي لإنتاج الفيديو يُسمى Emu Video، والذي يُمكنه تحويل الصور إلى نصوص ثم استخدامها كبيانات لإنشاء مقاطع.

يحظى Emu Video بتقييمات إيجابية من مُختبري النسخة التجريبية، حيث يُفضّله 81% منهم على Imagen Video (من Google). اختار أكثر من 90% نموذج Meta على PYOCO (من Nvidia)، وهو أفضل حتى من Make-A-Video من Meta (96%).

CogVideo (جامعة تسينغهوا، الصين)

بخلاف النماذج المذكورة أعلاه، والتي تُعدّ جميعها منتجات شركات التكنولوجيا الرائدة عالميًا ، يُعدّ CogVideo ذكاءً اصطناعيًا طوّره فريق بحثي من جامعة تسينغهوا، وهي جامعة مرموقة في الصين وآسيا. يعتمد البرنامج على CogView2، وهو نموذج مُدرّب مسبقًا لتحويل النص إلى صورة.

قال خبير فنون الحاسوب جلين مارشال، الذي اختبر برنامج CogVideo، إن "المخرجين قد يفقدون وظائفهم". وقد حظي مقطعه، المسمى "الغراب "، والذي أنتجه بمساعدة CogVideo، بإشادة كبيرة، ورُشِّح لجائزة الأكاديمية البريطانية للأفلام (BAFTA).

[إعلان 2]
رابط المصدر