مدل هوش مصنوعی جدید ByteDance به لطف قابلیت‌های «دیپ فیک» خود، سر و صدای زیادی به پا کرده است.

بایت‌دنس، شرکت مادر تیک‌تاک، به تازگی یک مدل هوش مصنوعی (AI) معرفی کرده است که قادر به تبدیل تصاویر و صدا به ویدیوهای واقع‌گرایانه است.

به گفته تیم توسعه‌دهنده ByteDance، این مدل چندوجهی که OmniHuman-1 نام دارد، می‌تواند ویدیوهای پویایی از شخصیت‌ها در حال صحبت، آواز خواندن و حرکت با «کیفیتی برتر در مقایسه با روش‌های فعلی ساخت ویدیو» ایجاد کند.

فناوری هوش مصنوعی که تصاویر، ویدیوها و صداهای واقع‌گرایانه ایجاد می‌کند و با نام «دیپ‌فیک» نیز شناخته می‌شود، به طور فزاینده‌ای در کلاهبرداری‌ها و سرگرمی‌ها مورد استفاده قرار می‌گیرد.

بایت‌دنس در حال حاضر یکی از داغ‌ترین شرکت‌های هوش مصنوعی در چین است. اپلیکیشن Doubao این شرکت محبوب‌ترین اپلیکیشن در بین کاربران سرزمین اصلی چین است.

اگرچه OmniHuman-1 هنوز به طور گسترده در دسترس عموم قرار نگرفته است، اما ویدیوهای نمونه به سرعت در سطح وسیعی پخش شده‌اند.

یکی از نسخه‌های نمایشی برجسته، یک ویدیوی ۲۳ ثانیه‌ای بود که آلبرت انیشتین را در حال سخنرانی نشان می‌داد. تک‌کرانچ خروجی این برنامه را «به‌طرز تکان‌دهنده‌ای شگفت‌انگیز» و «واقع‌بینانه‌ترین ویدیوهای دیپ‌فیک تا به امروز» توصیف کرد.

توسعه‌دهندگان می‌گویند که OmniHuman-1 برای ایجاد یک ویدیو با هر مدت زمانی، تنها به یک تصویر واحد به عنوان داده مرجع به همراه داده‌های صوتی مانند گفتار یا آواز نیاز دارد.

نرخ فریم ویدیوی خروجی و همچنین «نسبت‌های بدن» شخصیت‌های درون آن قابل تنظیم هستند.

بایت‌دنس در حال حاضر یکی از برجسته‌ترین شرکت‌های هوش مصنوعی در چین است. عکس: تک‌کرانچ

علاوه بر این، مدل هوش مصنوعی که با ۱۹۰۰۰ ساعت محتوای ویدیویی از منابع منتشر نشده آموزش دیده است، قادر به ویرایش ویدیوهای موجود و حتی تغییر حرکات دست و پای انسان با درجه‌ای قانع‌کننده است.

با این حال، ByteDance همچنین اذعان کرد که OmniHuman-1 بی‌نقص نیست، زیرا هنوز با برخی ژست‌ها مشکل دارد و «تصاویر مرجع بی‌کیفیت» بهترین ویدیو را تولید نمی‌کنند.

مدل هوش مصنوعی جدید ByteDance پیشرفت چین را علیرغم تلاش‌های واشنگتن برای محدود کردن صادرات فناوری نشان می‌دهد.

نگرانی‌ها

سال گذشته، دیپ‌فیک‌های سیاسی در سطح جهانی گسترش یافتند. در مولداوی، ویدیوهای دیپ‌فیک، سخنرانی استعفای رئیس جمهور این کشور، مایا ساندو، را تقلید کردند.

و در آفریقای جنوبی، یک ویدیوی دیپ‌فیک از رپر امینم که از یک حزب مخالف آفریقای جنوبی حمایت می‌کند، پیش از انتخابات این کشور به سرعت در فضای مجازی پخش شده است.

دیپ فیک‌ها همچنین به طور فزاینده‌ای برای ارتکاب جرایم مالی مورد استفاده قرار می‌گیرند. مصرف‌کنندگان توسط دیپ فیک‌های افراد مشهور که سرمایه‌گذاری را توصیه می‌کنند و فرصت‌های سرمایه‌گذاری جعلی ارائه می‌دهند، کلاهبرداری می‌شوند، در حالی که شرکت‌ها میلیون‌ها دلار را به خاطر جعل هویت مدیران ارشد از دست می‌دهند.

طبق گزارش Deloitte، محتوای تولید شده توسط هوش مصنوعی در سال ۲۰۲۳ به بیش از ۱۲ میلیارد دلار ضرر ناشی از کلاهبرداری منجر شده است و این رقم می‌تواند تا سال ۲۰۲۷ در ایالات متحده به ۴۰ میلیارد دلار برسد.

فوریه گذشته، صدها نفر از اعضای جامعه هوش مصنوعی نامه‌ای را امضا کردند و خواستار وضع مقررات سختگیرانه‌تر در مورد دیپ‌فیک شدند. در حالی که هیچ قانون فدرالی در ایالات متحده وجود ندارد که دیپ‌فیک را جرم‌انگاری کند، بیش از 10 ایالت قوانینی را علیه جعل اسناد با استفاده از هوش مصنوعی وضع کرده‌اند.

با این حال، تشخیص دیپ‌فیک آسان نیست. اگرچه برخی از پلتفرم‌های رسانه‌های اجتماعی و موتورهای جستجو اقداماتی را برای محدود کردن گسترش آنها انجام داده‌اند، اما میزان محتوای دیپ‌فیک آنلاین هنوز با سرعت نگران‌کننده‌ای در حال افزایش است.

در یک نظرسنجی که در ماه مه ۲۰۲۴ توسط شرکت تأیید هویت Jumio انجام شد، ۶۰٪ از شرکت‌کنندگان گزارش دادند که در سال گذشته با یک ویدیوی دیپ‌فیک مواجه شده‌اند؛ ۷۲٪ از پاسخ‌دهندگان گفتند که نگران فریب خوردن روزانه توسط دیپ‌فیک‌ها هستند، در حالی که اکثریت از تصویب قانون برای مقابله با تکثیر ویدیوهای جعلی تولید شده توسط هوش مصنوعی حمایت کردند.

گوگل به استفاده از هوش مصنوعی در فناوری تسلیحات و نظارت «چراغ سبز» داد. گوگل به وعده خود مبنی بر عدم طراحی و استقرار ابزارهای هوش مصنوعی برای استفاده در فناوری تسلیحات و نظارت عمل نکرده است.

منبع: https://vietnamnet.vn/model-ai-moi-cua-bytedance-noi-ran-ran-nho-kha-nang-deepfake-2368831.html