هوش مصنوعی تبدیل متن به ویدیو مانند Sora

سورا (OpenAI)

سورا جدیدترین نامی است که اعلام شده اما بیشترین سر و صدا را به پا کرده است، بخشی به این دلیل که محصول OpenAI - توسعه‌دهنده معروف ChatGPT - است، اما دلیل اصلی آن کیفیت ویدیوهایی است که این برنامه فقط از دستورات متنی ایجاد می‌کند.

موفقیت این شرکت با ChatGPT همچنین به هوش مصنوعی آن درک عمیقی از زبان می‌دهد. کلیپ‌هایی که توانایی‌های سورا را نشان می‌دهند، شخصیت‌ها را در حال حرکت و ابراز وجود به روشی نشان می‌دهند که به اندازه یک فیلم با دوربین انسان، واقعی به نظر می‌رسد.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — ویدیوی «سورئالیستی» که توسط سورا از دستورات متنی ساخته شده است

اما به دلایل ایمنی، Sora هنوز برای استفاده عمومی در دسترس نیست. OpenAI قبل از اینکه آن را در دسترس عموم قرار دهد، اقدامات احتیاطی را انجام خواهد داد، به خصوص با توجه به تعداد فزاینده‌ای از کاربران هوش مصنوعی که برای اهداف شوم مانند جعل هویت کاربران یا ارتکاب جرم مورد استفاده قرار می‌گیرند.

لومیر (گوگل)

لومیر محصولی از گوگل است که بر اساس مدل انتشار ساختار STUNet (Space-Time-U-Net) قادر به تولید ویدیو از ورودی متن نیز می‌باشد. لومیر زحمت دوختن فریم‌های ثابت را به هم نمی‌کشد، بلکه در عوض، این هوش مصنوعی جزئیات موجود در ویدیو (بخش مکانی) را شناسایی می‌کند، نحوه حرکت و تغییر همزمان آنها (بخش زمانی) را ردیابی می‌کند و در نتیجه به اجرای روان فرآیند کمک می‌کند.

مانند سورا، لومیر نیز به صورت عمومی عرضه نشده است. این شرکت این مدل را تنها در اواخر ژانویه ۲۰۲۴ پس از عرضه جمینی - مدل زبان بزرگ که به تازگی با بارد هماهنگ شده است - معرفی کرد.

ویدیوپوئت (گوگل)

این مدل زبان بزرگ (LLM) از مخزن عظیمی از ویدیوها، عکس‌ها، صداها و متن‌ها که توسط جستجوی گوگل در سال ۲۰۲۳ توسعه داده شده است، آموزش دیده است. VideoPoet می‌تواند وظایف مختلفی را از منابع ورودی مانند متن، عکس‌ها، ویدیوها... برای ایجاد ویدیو، برجسته کردن محتوا، تبدیل ویدیوها به صدا، تبدیل تصاویر ثابت به انیمیشن و... انجام دهد.

ایده اصلی VideoPoet از نیاز به ترجمه هر مدل زبانی خودرگرسیو به یک سیستم تولید ویدیو ناشی شد. مدل‌های زبانی خودرگرسیو فعلی می‌توانند متن و کد برنامه‌نویسی را مانند انسان‌ها پردازش کنند، اما وقتی صحبت از ویدیو می‌شود، با مشکل مواجه می‌شوند. VideoPoet این مشکل را با استفاده از توکن‌سازی برای ترجمه ورودی از هر فرمتی به زبانی که می‌تواند بفهمد، حل می‌کند.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — ابزارهای ساخت ویدیو از متن، اکثراً محدودیت‌های خود را آزمایش می‌کنند.

ویدیوی امو (متا)

علاوه بر گوگل و OpenAI، متا نیز یکی از شرکت‌های بزرگ فناوری است که در زمینه‌ی ساخت هوش مصنوعی فعال است. این شرکت که مالک فیس‌بوک است، یک هوش مصنوعی برای ساخت ویدیو به نام Emu Video توسعه داده است که می‌تواند تصاویر را به متن تبدیل کند و سپس از آن به عنوان داده برای ساخت کلیپ استفاده کند.

Emu Video از آزمایش‌کنندگان بتا، نظرات مثبتی دریافت کرده است و ۸۱٪ آن را به Imagen Video (گوگل) ترجیح می‌دهند. بیش از ۹۰٪ مدل Meta را به PYOCO (انویدیا) ترجیح داده‌اند، حتی بهتر از Make-A-Video متا (۹۶٪).

CogVideo (دانشگاه تسینگهوا، چین)

برخلاف مدل‌های فوق که همگی محصولات شرکت‌های پیشرو در فناوری جهان هستند، CogVideo یک هوش مصنوعی است که توسط یک تیم تحقیقاتی از دانشگاه Tsinghua - یک دانشگاه معتبر در چین و همچنین آسیا - توسعه داده شده است. این برنامه بر اساس CogView2، یک مدل از پیش آموزش دیده تبدیل متن به تصویر، ساخته شده است.

گلن مارشال، متخصص هنر کامپیوتر، که CogVideo را آزمایش کرده است، گفت: «کارگردانان ممکن است شغل خود را از دست بدهند.» کلیپ او با نام The Crow که با کمک CogVideo ساخته شده بود، مورد تحسین زیادی قرار گرفت و نامزد دریافت جایزه فیلم آکادمی بریتانیا (BAFTA) شد.

لینک منبع