سورا (OpenAI)
سورا جدیدترین نامی است که اعلام شده اما بیشترین سر و صدا را به پا کرده است، بخشی به این دلیل که محصول OpenAI - توسعهدهنده معروف ChatGPT - است، اما دلیل اصلی آن کیفیت ویدیوهایی است که این برنامه فقط از دستورات متنی ایجاد میکند.
موفقیت این شرکت با ChatGPT همچنین به هوش مصنوعی آن درک عمیقی از زبان میدهد. کلیپهایی که تواناییهای سورا را نشان میدهند، شخصیتها را در حال حرکت و ابراز وجود به روشی نشان میدهند که به اندازه یک فیلم با دوربین انسان، واقعی به نظر میرسد.
ویدیوی «سورئالیستی» که توسط سورا از دستورات متنی ساخته شده است
اما به دلایل ایمنی، Sora هنوز برای استفاده عمومی در دسترس نیست. OpenAI قبل از اینکه آن را در دسترس عموم قرار دهد، اقدامات احتیاطی را انجام خواهد داد، به خصوص با توجه به تعداد فزایندهای از کاربران هوش مصنوعی که برای اهداف شوم مانند جعل هویت کاربران یا ارتکاب جرم مورد استفاده قرار میگیرند.
لومیر (گوگل)
لومیر محصولی از گوگل است که بر اساس مدل انتشار ساختار STUNet (Space-Time-U-Net) قادر به تولید ویدیو از ورودی متن نیز میباشد. لومیر زحمت دوختن فریمهای ثابت را به هم نمیکشد، بلکه در عوض، این هوش مصنوعی جزئیات موجود در ویدیو (بخش مکانی) را شناسایی میکند، نحوه حرکت و تغییر همزمان آنها (بخش زمانی) را ردیابی میکند و در نتیجه به اجرای روان فرآیند کمک میکند.
مانند سورا، لومیر نیز به صورت عمومی عرضه نشده است. این شرکت این مدل را تنها در اواخر ژانویه ۲۰۲۴ پس از عرضه جمینی - مدل زبان بزرگ که به تازگی با بارد هماهنگ شده است - معرفی کرد.
ویدیوپوئت (گوگل)
این مدل زبان بزرگ (LLM) از مخزن عظیمی از ویدیوها، عکسها، صداها و متنها که توسط جستجوی گوگل در سال ۲۰۲۳ توسعه داده شده است، آموزش دیده است. VideoPoet میتواند وظایف مختلفی را از منابع ورودی مانند متن، عکسها، ویدیوها... برای ایجاد ویدیو، برجسته کردن محتوا، تبدیل ویدیوها به صدا، تبدیل تصاویر ثابت به انیمیشن و... انجام دهد.
ایده اصلی VideoPoet از نیاز به ترجمه هر مدل زبانی خودرگرسیو به یک سیستم تولید ویدیو ناشی شد. مدلهای زبانی خودرگرسیو فعلی میتوانند متن و کد برنامهنویسی را مانند انسانها پردازش کنند، اما وقتی صحبت از ویدیو میشود، با مشکل مواجه میشوند. VideoPoet این مشکل را با استفاده از توکنسازی برای ترجمه ورودی از هر فرمتی به زبانی که میتواند بفهمد، حل میکند.
ابزارهای ساخت ویدیو از متن، اکثراً محدودیتهای خود را آزمایش میکنند.
ویدیوی امو (متا)
علاوه بر گوگل و OpenAI، متا نیز یکی از شرکتهای بزرگ فناوری است که در زمینهی ساخت هوش مصنوعی فعال است. این شرکت که مالک فیسبوک است، یک هوش مصنوعی برای ساخت ویدیو به نام Emu Video توسعه داده است که میتواند تصاویر را به متن تبدیل کند و سپس از آن به عنوان داده برای ساخت کلیپ استفاده کند.
Emu Video از آزمایشکنندگان بتا، نظرات مثبتی دریافت کرده است و ۸۱٪ آن را به Imagen Video (گوگل) ترجیح میدهند. بیش از ۹۰٪ مدل Meta را به PYOCO (انویدیا) ترجیح دادهاند، حتی بهتر از Make-A-Video متا (۹۶٪).
CogVideo (دانشگاه تسینگهوا، چین)
برخلاف مدلهای فوق که همگی محصولات شرکتهای پیشرو در فناوری جهان هستند، CogVideo یک هوش مصنوعی است که توسط یک تیم تحقیقاتی از دانشگاه Tsinghua - یک دانشگاه معتبر در چین و همچنین آسیا - توسعه داده شده است. این برنامه بر اساس CogView2، یک مدل از پیش آموزش دیده تبدیل متن به تصویر، ساخته شده است.
گلن مارشال، متخصص هنر کامپیوتر، که CogVideo را آزمایش کرده است، گفت: «کارگردانان ممکن است شغل خود را از دست بدهند.» کلیپ او با نام The Crow که با کمک CogVideo ساخته شده بود، مورد تحسین زیادی قرار گرفت و نامزد دریافت جایزه فیلم آکادمی بریتانیا (BAFTA) شد.
لینک منبع






نظر (0)