سورا (OpenAI)
Sora هو أحدث اسم تم الإعلان عنه ولكنه تسبب في أكبر قدر من الضجة، ويرجع ذلك جزئيًا إلى أنه منتج من OpenAI - المطور الشهير لـ ChatGPT، ولكن بشكل أساسي بسبب جودة مقاطع الفيديو التي ينشئها البرنامج من أوامر نصية فقط.
كما أن النجاح الذي حققته ChatGPT يمنح الذكاء الاصطناعي للشركة قدرات فهم اللغة العميقة. تُظهر المقاطع التي توضح قدرات سورا حركات الشخصية وفروقها الدقيقة بشكل واضح للغاية، مثل فيلم الحركة الحية.
فيديو "سريالي" من إنتاج سورا باستخدام أوامر نصية
ولكن Sora غير متوفر في السوق حتى الآن لأسباب أمنية. ستتخذ OpenAI تدابير دقيقة قبل طرح هذا المنتج للعامة، خاصة في سياق استغلال الذكاء الاصطناعي من قبل المجرمين لأغراض خبيثة، أو انتحال شخصية المستخدمين أو بشكل غير قانوني.
لوميير (جوجل)
Lumiere هو منتج من Google، قادر أيضًا على إنتاج مقاطع فيديو من أوامر نصية مدخلة، ويعمل على أساس نموذج الانتشار المنظم STUNet (Space-Time-U-Net). لا يقوم Lumiere بربط الإطارات الثابتة معًا، بدلاً من ذلك، تحدد الذكاء الاصطناعي التفاصيل في الفيديو (الجزء المكاني)، وتتبع كيفية تحركها وتغيرها في نفس الوقت (الجزء الزمني)، وبالتالي مساعدة العملية على العمل بسلاسة.
مثل سورا، لم يتم إصدار لوميير للعامة. ولم تقدم الشركة هذا النموذج إلا في أواخر يناير 2024 بعد إطلاق Gemini - وهو نموذج لغوي كبير تمت مزامنته مؤخرًا مع Bard.
فيديو بويت (جوجل)
يتم تدريب نموذج اللغة الكبير هذا (LLM) من مستودع ضخم من مقاطع الفيديو والصور والصوت والنصوص التي طورتها Google Search في عام 2023. يمكن لبرنامج VideoPoet تنفيذ مهام مختلفة من مصادر الإدخال مثل النصوص والصور ومقاطع الفيديو... لإنشاء مقاطع فيديو، وتسليط الضوء على المحتوى، وتحويل مقاطع الفيديو إلى صوت، وتحويل الصور الثابتة إلى رسوم متحركة...
جاءت الفكرة الأصلية لـ VideoPoet من الحاجة إلى تحويل أي نموذج لغوي انحداري تلقائي إلى نظام توليد فيديو. يمكن لنماذج اللغة الانحدارية الحالية معالجة النصوص وأكواد البرمجة مثل البشر، ولكنها تصطدم بالحائط عندما يتعلق الأمر بالفيديو. يقوم VideoPoet بحل هذه المشكلة باستخدام التجزئة لتحويل الإدخال من أي تنسيق إلى لغة يمكنه فهمها.
تختبر أدوات إنشاء مقاطع الفيديو من النصوص حدودها في الغالب
فيديو إيمو (ميتا)
إلى جانب Google وOpenAI، تعد Meta أيضًا واحدة من شركات التكنولوجيا الكبرى النشطة في مجال ابتكار الذكاء الاصطناعي. كما طورت الشركة المالكة لفيسبوك أيضًا الذكاء الاصطناعي لصناعة الفيديو والذي يسمى Emu Video، والذي يمكنه تحويل الصور إلى نص ثم استخدامه كبيانات لإنشاء مقاطع.
يحظى Emu Video بتعليقات إيجابية من المشاركين في برنامج الاختبار، حيث يفضل 81% منهم هذا الذكاء الاصطناعي على Imagen Video (Google). أكثر من 90% اختاروا نموذج Meta على PYOCO (Nvidia)، وهو أفضل حتى من نموذج Make-A-Video من Meta (اختاره 96%).
CogVideo (جامعة تسينغهوا، الصين)
على عكس النماذج المذكورة أعلاه، والتي هي كلها منتجات من شركات التكنولوجيا الرائدة في العالم ، فإن CogVideo هو الذكاء الاصطناعي الذي طوره فريق بحثي من جامعة تسينغهوا - وهي جامعة مرموقة رائدة في الصين وكذلك في آسيا. يعتمد البرنامج على CogView2، وهو نموذج تحويل النص إلى صورة تم تدريبه مسبقًا.
وقال خبير فنون الكمبيوتر جلين مارشال، الذي اختبر تطبيق CogVideo، إن "المخرجين قد يفقدون وظائفهم". وقد نال المقطع المصور الذي يحمل اسم The Crow ، والذي أنشأه بمساعدة CogVideo، إشادة كبيرة وتم ترشيحه لجائزة الأكاديمية البريطانية للأفلام (BAFTA).
[إعلان 2]
رابط المصدر
تعليق (0)