
Veo3 جدیدترین مدل هوش مصنوعی گوگل است که در اواخر ماه مه عرضه شد و به کاربران امکان میدهد بر اساس دستورات صوتی ویدیو بسازند. این مدل توجه جامعه تولید محتوا را به خود جلب کرده است زیرا امکان ایجاد ویدیو با صدا و دیالوگ را فراهم میکند، ویژگیای که در نسخههای قبلی مدل گوگل وجود نداشت و در نتیجه آنها را واقعیتر میکند.
بسیاری از کاربران از کلیپهای ویدیویی Veo 3، تا سقف ۸ ثانیه، برای ساخت تبلیغات، ویدیوهای ASMR، تریلر فیلمهای فانتزی و مصاحبههای خیابانی طنزآمیز استفاده میکنند.
دارن آرونوفسکی، کارگردان نامزد جایزه اسکار، از این ابزار برای ساخت فیلم کوتاهی به نام Ancestra استفاده کرد. در کنفرانس مطبوعاتی، دمیس هاسابیس، مدیرعامل گوگل دیپمایند، Veo 3 را با گامی «خارج از دوران فیلمهای صامت» در سینما مقایسه کرد.
زیرنویسهای «پایدار» از Veo 3
با این حال، بسیاری از کاربران متوجه شدهاند که این ابزار آنطور که انتظار میرود کار نمیکند. هنگام ایجاد کلیپهایی با دیالوگ، Veo 3 اغلب به طور خودکار زیرنویسهای بیمعنی و درهم و برهمی را وارد میکند، حتی زمانی که دستور به وضوح میگوید که زیرنویس اضافه نشود.
حذف این زیرنویسها ساده نیست. کاربران مجبورند کلیپ را از نو بسازند، «توکن» خرج کنند که به معنای صرف پول بیشتر در گوگل است، یا از ابزارهای خارجی برای حذف زیرنویسها استفاده کنند، یا ویدیو را برای حذف زیرنویسها برش دهند.
![]() |
Veo 3 تصاویر و دیالوگهای واقعگرایانهای تولید میکند که با حرکات لب مطابقت دارند، اما زیرنویسها بیمعنی هستند. عکس: Lesswrong . |
جاش وودوارد، معاون رئیس آزمایشگاههای گوگل و جمینی، در تاریخ ۹ ژوئن در X پستی منتشر کرد مبنی بر اینکه گوگل وصلههایی برای کاهش مشکل هرزنامهها توسعه داده است. اما بیش از یک ماه بعد، کاربران همچنان این مشکل را در کانال Discord آزمایشگاههای گوگل گزارش میدهند که نشان میدهد رفع اشکالات در مدلهای بزرگ هوش مصنوعی آسان نیست.
مانند مدلهای قبلی ساخت ویدیوی هوش مصنوعی گوگل، Veo 3 یک مدل پولی است که از ۲۴۹.۹۹ دلار در ماه شروع میشود. برای ساخت یک ویدیوی ۸ ثانیهای، کاربران توضیحی را در Flow، Gemini یا پلتفرم دیگری وارد میکنند. ساخت هر کلیپ با استفاده از Veo 3 حداقل ۲۰ اعتبار هوش مصنوعی هزینه دارد و کاربران میتوانند با ۲۵۰۰ اعتبار، ۲۵ دلار دیگر به آن اضافه کنند.
مونا وایس، مدیر بازرگانی، میگوید بازسازی فیلم برای حذف زیرنویسها به یک هزینه قابل توجه تبدیل شده است. او میگوید: «اگر با استفاده از Veo3 صحنهای با دیالوگ بسازید، حدود ۴۰٪ از خروجی زیرنویسهای بیمعنی خواهد داشت که ویدیو را غیرقابل استفاده میکند. برای گرفتن صحنهای که دوست دارید، هزینه زیادی صرف میشود، اما در نهایت غیرقابل استفاده میشود.»
![]() |
زیرنویسهای بیمعنی در Veo 3 به سختی قابل حذف هستند. عکس: Technology Review . |
وقتی ویس این مشکل را از طریق Discord به آزمایشگاههای گوگل گزارش داد، به امید اینکه اعتبارهای از دست رفتهاش را پس بگیرد، تیم پشتیبانی او را به بخش پشتیبانی رسمی شرکت ارجاع داد. آنها پیشنهاد بازپرداخت هزینه اشتراک Veo 3 را دادند، اما اعتبارها را نه. ویس این پیشنهاد را رد کرد زیرا پذیرش بازپرداخت به معنای از دست دادن دسترسی به مدل بود.
تیم پشتیبانی Google Labs Discord اظهار داشت که در صورت تشخیص صدا، زیرنویسها ممکن است به طور خودکار فعال شوند و آنها در حال تلاش برای رفع این اشکال هستند.
مشکل از رویکرد گوگل ناشی میشود.
دلیل اینکه Veo 3 به طور خودکار زیرنویسها را وارد میکند، ناشی از دادههایی است که مدل بر اساس آنها آموزش دیده است.
اگرچه گوگل جزئیات دستهبندی دادههای مورد استفاده برای آموزش مدلهای خود را منتشر نکرده است، اما احتمالاً شامل ویدیوهایی از پلتفرمهایی مانند یوتیوب و تیکتاک میشود که بسیاری از آنها حاوی زیرنویس هستند. به گفته شو نیو، محقق پلتفرمهای اشتراکگذاری ویدیو و هوش مصنوعی در دانشگاه کلارک (ماساچوست، ایالات متحده)، این زیرنویسها مستقیماً در فریمهای ویدیو تعبیه شدهاند و حذف آنها قبل از استفاده به عنوان دادههای آموزشی دشوار است.
او توضیح داد: «مدلهای تبدیل متن به ویدیو با استفاده از یادگیری تقویتی آموزش داده میشوند تا محتوایی ایجاد کنند که از ویدیوهای ساخته شده توسط انسان تقلید کند و اگر آن ویدیوها زیرنویس داشته باشند، مدل میتواند «یاد بگیرد» که اضافه کردن زیرنویس، محصول را بیشتر شبیه یک ویدیوی ساخته شده توسط انسان میکند.»
![]() |
Veo 3 تحت تأثیر دادههای آموزش مدل از ویدیوهای یوتیوب و تیکتاک قرار گرفت. تصویر: Mashable . |
سخنگوی گوگل گفت: «ما دائماً در حال بهبود قابلیتهای ساخت ویدیوی خود، به ویژه از نظر متن، صدای طبیعی و صدای کاملاً هماهنگ هستیم. ما کاربران را تشویق میکنیم که در صورت مغایرت نتایج، دستور را دوباره امتحان کنند و از طریق ویژگی لایک یا دیسلایک به ما بازخورد دهند.»
علاوه بر این، به گفته توهین چاکرابارتی، محقق سیستمهای هوش مصنوعی در دانشگاه استونی بروک، دلیل اینکه این مدل عباراتی مانند «زیرنویس ممنوع» را نادیده میگیرد این است که عبارات منفی (که به هوش مصنوعی دستور میدهند کاری را انجام ندهد) عموماً کمتر از عبارات مثبت مؤثر هستند.
برای حل کامل این مشکل، گوگل باید تک تک فریمهای تمام ویدیوهای استفاده شده برای آموزش Veo 3 را بررسی کند، سپس قبل از آموزش مجدد مدل، ویدیوهای دارای زیرنویس را حذف یا برچسبگذاری مجدد کند. چاکرابارتی افزود که این کار هفتهها طول خواهد کشید.
کاترینا سیزک، مستندساز و کارگردان هنری در آزمایشگاه مستندسازی آزاد MIT، استدلال میکند که این موضوع نشاندهندهی تمایل گوگل به انتشار محصولاتی است که هنوز بهطور کامل تکمیل نشدهاند.
سیزک اظهار داشت: «گوگل به یک پیروزی نیاز دارد. آنها باید اولین کسی باشند که ابزاری را منتشر میکنند که میتواند صدایی ایجاد کند که با حرکات لب مطابقت داشته باشد. و این مهمتر از رفع مشکل زیرنویس است.»
منبع: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









نظر (0)