OpenAI ابزار ساخت ویدیوی مبتنی بر متن را راه‌اندازی کرد

طبق گزارش CNBC ، شرکت OpenAI به تازگی Sora را معرفی کرده است - یک مدل هوش مصنوعی نسل بعدی که مشابه ابزار هوش مصنوعی تولید تصویر DALL-E قبلی آنها عمل می‌کند. کاربران فقط باید صحنه مورد نظر را وارد کنند و Sora یک کلیپ ویدیویی با وضوح بالا را برمی‌گرداند. Sora همچنین می‌تواند کلیپ‌های ویدیویی با الهام از تصاویر ثابت ایجاد کند و ویدیوهای موجود را گسترش دهد یا فریم‌های گمشده را پر کند.

OpenAI ra mắt công cụ sáng tạo video bằng văn bản- Ảnh 1. — سگ‌های ساموید و گلدن رتریور در ویدئویی که با هوش مصنوعی تولید شده، شب‌ها در شهری با چراغ‌های نئونی پرسه می‌زنند.

پس از آنکه چت‌بات‌ها و تولیدکنندگان تصویر چندی پیش به دنیای مصرف‌کنندگان و کسب‌وکارها راه یافتند، ساخت ویدیو می‌تواند گام بزرگ بعدی برای هوش مصنوعی خلاق باشد. در حالی که تولید محتوا علاقه‌مندان به هوش مصنوعی را هیجان‌زده می‌کند، این فناوری‌های جدید با نزدیک شدن به انتخابات سیاسی بزرگ جهانی، نگرانی‌های جدی در مورد اطلاعات نادرست ایجاد می‌کنند. طبق داده‌های شرکت یادگیری ماشینی Clarity، تعداد دیپ‌فیک‌های تولید شده توسط هوش مصنوعی نسبت به سال گذشته 900 درصد افزایش یافته است.

OpenAI با Sora به دنبال رقابت با ابزارهای هوش مصنوعی تولید ویدیو از شرکت‌هایی مانند گوگل و متا است. ابزارهای هوش مصنوعی مشابهی از سوی استارت‌آپ‌های دیگر مانند Stability AI در دسترس هستند که محصولی به نام Stable Video Diffusion دارد. آمازون نیز Create with Alexa را منتشر کرده است، مدلی که در ایجاد محتوای انیمیشن کوتاه برای کودکان بر اساس دستورات تخصص دارد.

سورا در حال حاضر محدود به تولید ویدیوهایی با مدت زمان یک دقیقه یا کمتر است. OpenAI چندوجهی بودن، روشی که متن، تصویر و تولید ویدیو را با هم ترکیب می‌کند، هدفی را در تلاش برای ارائه مجموعه وسیع‌تری از مدل‌های هوش مصنوعی دنبال می‌کند.

تاکنون، Sora فقط در اختیار گروه کوچکی از آزمایش‌کنندگان ایمنی یا «تیم‌های قرمز» قرار گرفته است که وظیفه آزمایش این مدل برای یافتن آسیب‌پذیری‌ها در حوزه‌هایی مانند اطلاعات نادرست را بر عهده دارند. این شرکت به جز 10 کلیپ نمونه موجود در وب‌سایت خود، هیچ نسخه آزمایشی عمومی دیگری منتشر نکرده است و می‌گوید اسناد فنی همراه آن به زودی منتشر خواهد شد.

OpenAI همچنین می‌گوید در حال ساخت یک «طبقه‌بندی‌کننده‌ی تشخیص» است که می‌تواند کلیپ‌های ویدیویی تولید شده توسط Sora را شناسایی کند و قصد دارد فراداده‌های خاصی را در خروجی بگنجاند تا به شناسایی محتوای تولید شده توسط هوش مصنوعی کمک کند. این همان نوع فراداده‌ای است که Meta به دنبال استفاده از آن برای شناسایی تصاویر تولید شده توسط هوش مصنوعی است.

سورا یک مدل هوش مصنوعی است که از معماری ترنسفورمر استفاده می‌کند که محققان گوگل در سال ۲۰۱۷ در مقاله‌ای معرفی کردند. OpenAI در اطلاعیه خود اعلام کرد که سورا به عنوان پایه و اساس مدل‌هایی عمل می‌کند که دنیای واقعی را درک و شبیه‌سازی می‌کنند.

لینک منبع