Vietnam.vn - Nền tảng quảng bá Việt Nam

مشکل بزرگ با Veo 3

این مدل هوش مصنوعی بیش از یک ماه پس از عرضه، به طور خودکار زیرنویس‌های نامرتب و بی‌معنی را به ویدیوها اضافه می‌کند. این وضعیت نشان می‌دهد که گوگل مایل است محصولات ناتمام را برای نشان دادن قابلیت‌های هوش مصنوعی خود منتشر کند.

ZNewsZNews19/07/2025

Veo3 جدیدترین مدل هوش مصنوعی گوگل است که در اواخر ماه مه عرضه شد و به کاربران امکان می‌دهد بر اساس دستورات صوتی ویدیو بسازند. این مدل توجه جامعه تولید محتوا را به خود جلب کرده است زیرا امکان ایجاد ویدیو با صدا و دیالوگ را فراهم می‌کند، ویژگی‌ای که در نسخه‌های قبلی مدل گوگل وجود نداشت و در نتیجه آنها را واقعی‌تر می‌کند.

بسیاری از کاربران از کلیپ‌های ویدیویی Veo 3، تا سقف ۸ ثانیه، برای ساخت تبلیغات، ویدیوهای ASMR، تریلر فیلم‌های فانتزی و مصاحبه‌های خیابانی طنزآمیز استفاده می‌کنند.

دارن آرونوفسکی، کارگردان نامزد جایزه اسکار، از این ابزار برای ساخت فیلم کوتاهی به نام Ancestra استفاده کرد. در کنفرانس مطبوعاتی، دمیس هاسابیس، مدیرعامل گوگل دیپ‌مایند، Veo 3 را با گامی «خارج از دوران فیلم‌های صامت» در سینما مقایسه کرد.

زیرنویس‌های «پایدار» از Veo 3

با این حال، بسیاری از کاربران متوجه شده‌اند که این ابزار آنطور که انتظار می‌رود کار نمی‌کند. هنگام ایجاد کلیپ‌هایی با دیالوگ، Veo 3 اغلب به طور خودکار زیرنویس‌های بی‌معنی و درهم و برهمی را وارد می‌کند، حتی زمانی که دستور به وضوح می‌گوید که زیرنویس اضافه نشود.

حذف این زیرنویس‌ها ساده نیست. کاربران مجبورند کلیپ را از نو بسازند، «توکن» خرج کنند که به معنای صرف پول بیشتر در گوگل است، یا از ابزارهای خارجی برای حذف زیرنویس‌ها استفاده کنند، یا ویدیو را برای حذف زیرنویس‌ها برش دهند.

video AI anh 1

Veo 3 تصاویر و دیالوگ‌های واقع‌گرایانه‌ای تولید می‌کند که با حرکات لب مطابقت دارند، اما زیرنویس‌ها بی‌معنی هستند. عکس: Lesswrong .

جاش وودوارد، معاون رئیس آزمایشگاه‌های گوگل و جمینی، در تاریخ ۹ ژوئن در X پستی منتشر کرد مبنی بر اینکه گوگل وصله‌هایی برای کاهش مشکل هرزنامه‌ها توسعه داده است. اما بیش از یک ماه بعد، کاربران همچنان این مشکل را در کانال Discord آزمایشگاه‌های گوگل گزارش می‌دهند که نشان می‌دهد رفع اشکالات در مدل‌های بزرگ هوش مصنوعی آسان نیست.

مانند مدل‌های قبلی ساخت ویدیوی هوش مصنوعی گوگل، Veo 3 یک مدل پولی است که از ۲۴۹.۹۹ دلار در ماه شروع می‌شود. برای ساخت یک ویدیوی ۸ ثانیه‌ای، کاربران توضیحی را در Flow، Gemini یا پلتفرم دیگری وارد می‌کنند. ساخت هر کلیپ با استفاده از Veo 3 حداقل ۲۰ اعتبار هوش مصنوعی هزینه دارد و کاربران می‌توانند با ۲۵۰۰ اعتبار، ۲۵ دلار دیگر به آن اضافه کنند.

مونا وایس، مدیر بازرگانی، می‌گوید بازسازی فیلم برای حذف زیرنویس‌ها به یک هزینه قابل توجه تبدیل شده است. او می‌گوید: «اگر با استفاده از Veo3 صحنه‌ای با دیالوگ بسازید، حدود ۴۰٪ از خروجی زیرنویس‌های بی‌معنی خواهد داشت که ویدیو را غیرقابل استفاده می‌کند. برای گرفتن صحنه‌ای که دوست دارید، هزینه زیادی صرف می‌شود، اما در نهایت غیرقابل استفاده می‌شود.»

video AI anh 2

زیرنویس‌های بی‌معنی در Veo 3 به سختی قابل حذف هستند. عکس: Technology Review .

وقتی ویس این مشکل را از طریق Discord به آزمایشگاه‌های گوگل گزارش داد، به امید اینکه اعتبارهای از دست رفته‌اش را پس بگیرد، تیم پشتیبانی او را به بخش پشتیبانی رسمی شرکت ارجاع داد. آنها پیشنهاد بازپرداخت هزینه اشتراک Veo 3 را دادند، اما اعتبارها را نه. ویس این پیشنهاد را رد کرد زیرا پذیرش بازپرداخت به معنای از دست دادن دسترسی به مدل بود.

تیم پشتیبانی Google Labs Discord اظهار داشت که در صورت تشخیص صدا، زیرنویس‌ها ممکن است به طور خودکار فعال شوند و آنها در حال تلاش برای رفع این اشکال هستند.

مشکل از رویکرد گوگل ناشی می‌شود.

دلیل اینکه Veo 3 به طور خودکار زیرنویس‌ها را وارد می‌کند، ناشی از داده‌هایی است که مدل بر اساس آنها آموزش دیده است.

اگرچه گوگل جزئیات دسته‌بندی داده‌های مورد استفاده برای آموزش مدل‌های خود را منتشر نکرده است، اما احتمالاً شامل ویدیوهایی از پلتفرم‌هایی مانند یوتیوب و تیک‌تاک می‌شود که بسیاری از آنها حاوی زیرنویس هستند. به گفته شو نیو، محقق پلتفرم‌های اشتراک‌گذاری ویدیو و هوش مصنوعی در دانشگاه کلارک (ماساچوست، ایالات متحده)، این زیرنویس‌ها مستقیماً در فریم‌های ویدیو تعبیه شده‌اند و حذف آنها قبل از استفاده به عنوان داده‌های آموزشی دشوار است.

او توضیح داد: «مدل‌های تبدیل متن به ویدیو با استفاده از یادگیری تقویتی آموزش داده می‌شوند تا محتوایی ایجاد کنند که از ویدیوهای ساخته شده توسط انسان تقلید کند و اگر آن ویدیوها زیرنویس داشته باشند، مدل می‌تواند «یاد بگیرد» که اضافه کردن زیرنویس، محصول را بیشتر شبیه یک ویدیوی ساخته شده توسط انسان می‌کند.»

video AI anh 3

Veo 3 تحت تأثیر داده‌های آموزش مدل از ویدیوهای یوتیوب و تیک‌تاک قرار گرفت. تصویر: Mashable .

سخنگوی گوگل گفت: «ما دائماً در حال بهبود قابلیت‌های ساخت ویدیوی خود، به ویژه از نظر متن، صدای طبیعی و صدای کاملاً هماهنگ هستیم. ما کاربران را تشویق می‌کنیم که در صورت مغایرت نتایج، دستور را دوباره امتحان کنند و از طریق ویژگی لایک یا دیسلایک به ما بازخورد دهند.»

علاوه بر این، به گفته توهین چاکرابارتی، محقق سیستم‌های هوش مصنوعی در دانشگاه استونی بروک، دلیل اینکه این مدل عباراتی مانند «زیرنویس ممنوع» را نادیده می‌گیرد این است که عبارات منفی (که به هوش مصنوعی دستور می‌دهند کاری را انجام ندهد) عموماً کمتر از عبارات مثبت مؤثر هستند.

برای حل کامل این مشکل، گوگل باید تک تک فریم‌های تمام ویدیوهای استفاده شده برای آموزش Veo 3 را بررسی کند، سپس قبل از آموزش مجدد مدل، ویدیوهای دارای زیرنویس را حذف یا برچسب‌گذاری مجدد کند. چاکرابارتی افزود که این کار هفته‌ها طول خواهد کشید.

کاترینا سیزک، مستندساز و کارگردان هنری در آزمایشگاه مستندسازی آزاد MIT، استدلال می‌کند که این موضوع نشان‌دهنده‌ی تمایل گوگل به انتشار محصولاتی است که هنوز به‌طور کامل تکمیل نشده‌اند.

سیزک اظهار داشت: «گوگل به یک پیروزی نیاز دارد. آنها باید اولین کسی باشند که ابزاری را منتشر می‌کنند که می‌تواند صدایی ایجاد کند که با حرکات لب مطابقت داشته باشد. و این مهم‌تر از رفع مشکل زیرنویس است.»

منبع: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


نظر (0)

لطفاً نظر دهید تا احساسات خود را با ما به اشتراک بگذارید!

در همان دسته‌بندی

از همان نویسنده

میراث

شکل

کسب و کارها

امور جاری

نظام سیاسی

محلی

محصول

Happy Vietnam
امرار معاش

امرار معاش

گردشگری تجربی ویتنام

گردشگری تجربی ویتنام

ریه‌های سایگون

ریه‌های سایگون