سورا مدل هوش مصنوعی مولد جدید OpenAI است که مشابه مولد تصویر Dall-E این شرکت عمل میکند. کاربران به سادگی محتوای ویدیویی را درخواست میکنند و سورا یک کلیپ ویدیویی با کیفیت بالا را برمیگرداند. همچنین میتواند از تصاویر ثابت ویدیو تولید کند، ویدیوها را بسط دهد یا فریمهای خالی را پر کند.
با ورود چتباتها و مولدهای تصویر به دنیای واقعی، ویدئو میتواند مرز بعدی هوش مصنوعی مولد باشد. اگرچه این فناوری جدید مورد استقبال علاقهمندان به هوش مصنوعی قرار گرفته است، اما با نزدیک شدن به انتخابات سیاسی بزرگ جهانی، نگرانیهای جدی در مورد اطلاعات نادرست ایجاد میکند. طبق دادههای شرکت یادگیری ماشینی Clarity، تعداد دیپفیکهای تولید شده توسط هوش مصنوعی نسبت به سال گذشته 900 درصد افزایش یافته است.
OpenAI با Sora به دنبال رقابت با ابزارهای هوش مصنوعی تولید ویدیو از رقبایی مانند Meta، Google و استارتاپهایی مانند Stability AI است. آمازون همچنین Create with Alexa را راهاندازی کرده است، یک مدل مبتنی بر دستور برای تولید محتوای انیمیشن کوتاه برای کودکان.
سورا در حال حاضر فقط میتواند ویدیوهایی با مدت زمان یک دقیقه یا کمتر ایجاد کند. همچنین یک تیم کوچک - یا "تیم قرمز" - وجود دارد که از این مدل برای جستجوی آسیبپذیریهای امنیتی استفاده میکند. OpenAI به جز 10 کلیپ نمونه موجود در وبسایت خود، هیچ نسخه آزمایشی عمومی منتشر نکرده است.
OpenAI همچنین در حال ساخت یک طبقهبندیکننده است که میتواند کلیپهای ویدیویی را به عنوان محصولات Sora شناسایی کند و قصد دارد فرادادههای خاصی را در خروجی بگنجاند تا به شناسایی محتوای تولید شده توسط هوش مصنوعی کمک کند. این تلاش مشابه کاری است که Meta برای شناسایی تصاویر تولید شده توسط هوش مصنوعی انجام میدهد.
سورا، مانند ChatGPT، از معماری Transformer که توسط محققان گوگل در مقالهای در سال ۲۰۱۷ معرفی شد، استفاده میکند.
(به نقل از سیانبیسی)
منبع
نظر (0)