مشکل بزرگ با Veo 3

این مدل هوش مصنوعی بیش از یک ماه پس از عرضه، به طور خودکار زیرنویس‌های نامرتب و بی‌معنی را به ویدیوها اضافه می‌کند. این وضعیت نشان می‌دهد که گوگل مایل است محصولات ناتمام را برای نشان دادن قابلیت‌های هوش مصنوعی خود منتشر کند.

ZNews•19/07/2025

Veo3 جدیدترین مدل هوش مصنوعی گوگل است که در اواخر ماه مه عرضه شد و به کاربران امکان می‌دهد بر اساس دستورات صوتی ویدیو بسازند. این مدل توجه جامعه تولید محتوا را به خود جلب کرده است زیرا امکان ایجاد ویدیو با صدا و دیالوگ را فراهم می‌کند، ویژگی‌ای که در نسخه‌های قبلی مدل گوگل وجود نداشت و در نتیجه آنها را واقعی‌تر می‌کند.

بسیاری از کاربران از کلیپ‌های ویدیویی Veo 3، تا سقف ۸ ثانیه، برای ساخت تبلیغات، ویدیوهای ASMR، تریلر فیلم‌های فانتزی و مصاحبه‌های خیابانی طنزآمیز استفاده می‌کنند.

دارن آرونوفسکی، کارگردان نامزد جایزه اسکار، از این ابزار برای ساخت فیلم کوتاهی به نام Ancestra استفاده کرد. در کنفرانس مطبوعاتی، دمیس هاسابیس، مدیرعامل گوگل دیپ‌مایند، Veo 3 را با گامی «خارج از دوران فیلم‌های صامت» در سینما مقایسه کرد.

زیرنویس‌های «پایدار» از Veo 3

با این حال، بسیاری از کاربران متوجه شده‌اند که این ابزار آنطور که انتظار می‌رود کار نمی‌کند. هنگام ایجاد کلیپ‌هایی با دیالوگ، Veo 3 اغلب به طور خودکار زیرنویس‌های بی‌معنی و درهم و برهمی را وارد می‌کند، حتی زمانی که دستور به وضوح می‌گوید که زیرنویس اضافه نشود.

حذف این زیرنویس‌ها ساده نیست. کاربران مجبورند کلیپ را از نو بسازند، «توکن» خرج کنند که به معنای صرف پول بیشتر در گوگل است، یا از ابزارهای خارجی برای حذف زیرنویس‌ها استفاده کنند، یا ویدیو را برای حذف زیرنویس‌ها برش دهند.

Veo 3 تصاویر و دیالوگ‌های واقع‌گرایانه‌ای تولید می‌کند که با حرکات لب مطابقت دارند، اما زیرنویس‌ها بی‌معنی هستند. عکس: Lesswrong .

جاش وودوارد، معاون رئیس آزمایشگاه‌های گوگل و جمینی، در تاریخ ۹ ژوئن در X پستی منتشر کرد مبنی بر اینکه گوگل وصله‌هایی برای کاهش مشکل هرزنامه‌ها توسعه داده است. اما بیش از یک ماه بعد، کاربران همچنان این مشکل را در کانال Discord آزمایشگاه‌های گوگل گزارش می‌دهند که نشان می‌دهد رفع اشکالات در مدل‌های بزرگ هوش مصنوعی آسان نیست.

مانند مدل‌های قبلی ساخت ویدیوی هوش مصنوعی گوگل، Veo 3 یک مدل پولی است که از ۲۴۹.۹۹ دلار در ماه شروع می‌شود. برای ساخت یک ویدیوی ۸ ثانیه‌ای، کاربران توضیحی را در Flow، Gemini یا پلتفرم دیگری وارد می‌کنند. ساخت هر کلیپ با استفاده از Veo 3 حداقل ۲۰ اعتبار هوش مصنوعی هزینه دارد و کاربران می‌توانند با ۲۵۰۰ اعتبار، ۲۵ دلار دیگر به آن اضافه کنند.

مونا وایس، مدیر بازرگانی، می‌گوید بازسازی فیلم برای حذف زیرنویس‌ها به یک هزینه قابل توجه تبدیل شده است. او می‌گوید: «اگر با استفاده از Veo3 صحنه‌ای با دیالوگ بسازید، حدود ۴۰٪ از خروجی زیرنویس‌های بی‌معنی خواهد داشت که ویدیو را غیرقابل استفاده می‌کند. برای گرفتن صحنه‌ای که دوست دارید، هزینه زیادی صرف می‌شود، اما در نهایت غیرقابل استفاده می‌شود.»

شاید برایتان جالب باشد

نمایشگاه یوروبایک ۲۰۲۶ آینده صنعت دوچرخه‌سواری جهان را شکل می‌دهد.نمایشگاه یوروبایک ۲۰۲۶ در آلمان، تحول صنعت جهانی دوچرخه را تأیید می‌کند و مقیاس آن را برای بهبود کیفیت از طریق یک اکوسیستم هوشمند گسترش می‌دهد.

اسکن و مسدود کردن بازی‌های ویدیویی آنلاین که قانون را نقض می‌کنند.در شش ماه اول سال ۲۰۲۶، ۶۹۰ بازی متخلف اسکن و مسدود شدند و دسترسی به ۲۴۵ وب‌سایت مرتبط با تبلیغات و ارائه بازی‌های غیرمجاز نیز مسدود شد.

کاربرد فناوری نقشه‌برداری سه‌بعدی در برنامه‌ریزی شهر هانوی، پایتخت ویتنام.VTV.vn - نمایشگاه برنامه‌ریزی شهر پایتخت هانوی، با چشم‌اندازی ۱۰۰ ساله، با به‌کارگیری فناوری نقشه‌برداری سه‌بعدی، مدل‌ها و واقعیت مجازی، تجربه‌ای مدرن و شهودی را برای عموم فراهم می‌کند.

زیرنویس‌های بی‌معنی در Veo 3 به سختی قابل حذف هستند. عکس: Technology Review .

وقتی ویس این مشکل را از طریق Discord به آزمایشگاه‌های گوگل گزارش داد، به امید اینکه اعتبارهای از دست رفته‌اش را پس بگیرد، تیم پشتیبانی او را به بخش پشتیبانی رسمی شرکت ارجاع داد. آنها پیشنهاد بازپرداخت هزینه اشتراک Veo 3 را دادند، اما اعتبارها را نه. ویس این پیشنهاد را رد کرد زیرا پذیرش بازپرداخت به معنای از دست دادن دسترسی به مدل بود.

تیم پشتیبانی Google Labs Discord اظهار داشت که در صورت تشخیص صدا، زیرنویس‌ها ممکن است به طور خودکار فعال شوند و آنها در حال تلاش برای رفع این اشکال هستند.

مشکل از رویکرد گوگل ناشی می‌شود.

دلیل اینکه Veo 3 به طور خودکار زیرنویس‌ها را وارد می‌کند، ناشی از داده‌هایی است که مدل بر اساس آنها آموزش دیده است.

اگرچه گوگل جزئیات دسته‌بندی داده‌های مورد استفاده برای آموزش مدل‌های خود را منتشر نکرده است، اما احتمالاً شامل ویدیوهایی از پلتفرم‌هایی مانند یوتیوب و تیک‌تاک می‌شود که بسیاری از آنها حاوی زیرنویس هستند. به گفته شو نیو، محقق پلتفرم‌های اشتراک‌گذاری ویدیو و هوش مصنوعی در دانشگاه کلارک (ماساچوست، ایالات متحده)، این زیرنویس‌ها مستقیماً در فریم‌های ویدیو تعبیه شده‌اند و حذف آنها قبل از استفاده به عنوان داده‌های آموزشی دشوار است.

او توضیح داد: «مدل‌های تبدیل متن به ویدیو با استفاده از یادگیری تقویتی آموزش داده می‌شوند تا محتوایی ایجاد کنند که از ویدیوهای ساخته شده توسط انسان تقلید کند و اگر آن ویدیوها زیرنویس داشته باشند، مدل می‌تواند «یاد بگیرد» که اضافه کردن زیرنویس، محصول را بیشتر شبیه یک ویدیوی ساخته شده توسط انسان می‌کند.»

Veo 3 تحت تأثیر داده‌های آموزش مدل از ویدیوهای یوتیوب و تیک‌تاک قرار گرفت. تصویر: Mashable .

سخنگوی گوگل گفت: «ما دائماً در حال بهبود قابلیت‌های ساخت ویدیوی خود، به ویژه از نظر متن، صدای طبیعی و صدای کاملاً هماهنگ هستیم. ما کاربران را تشویق می‌کنیم که در صورت مغایرت نتایج، دستور را دوباره امتحان کنند و از طریق ویژگی لایک یا دیسلایک به ما بازخورد دهند.»

ایالات متحده - ویتنام: از دست ندهید

ویتنام شرکت‌های آمریکایی را به گسترش سرمایه‌گذاری در فناوری پیشرفته تشویق می‌کند.صبح روز 26 ژوئن، در دفتر مرکزی دولت، هو کوک دونگ، معاون نخست وزیر، آقای جف پلیس، مدیر زنجیره تأمین گروه Coherent (ایالات متحده آمریکا) را به حضور پذیرفت. در طول این دیدار، معاون نخست وزیر تأیید کرد که ویتنام، کسب و کارهای آمریکایی را به گسترش سرمایه‌گذاری، به ویژه در صنایع فناوری پیشرفته، نوآوری و نیمه‌هادی، تشویق می‌کند.

تشویق کسب‌وکارهای آمریکایی به گسترش سرمایه‌گذاری در بخش‌های فناوری پیشرفته.هو کوک دونگ، معاون نخست وزیر، گفت که ویتنام از گسترش فعالیت‌های شرکت‌های آمریکایی در ویتنام، به ویژه در صنایع پیشرفته و بخش‌هایی با ارزش افزوده بالا، استقبال می‌کند.

ویتنام و ایالات متحده همکاری خود را در مقابله با پیامدهای جنگ تقویت می‌کنند.VTV.vn - در 22 ژوئن، دبیر کل و رئیس جمهور، تو لام، وزیر موقت نیروی دریایی ایالات متحده، هونگ کائو، را به حضور پذیرفت.

علاوه بر این، به گفته توهین چاکرابارتی، محقق سیستم‌های هوش مصنوعی در دانشگاه استونی بروک، دلیل اینکه این مدل عباراتی مانند «زیرنویس ممنوع» را نادیده می‌گیرد این است که عبارات منفی (که به هوش مصنوعی دستور می‌دهند کاری را انجام ندهد) عموماً کمتر از عبارات مثبت مؤثر هستند.

برای حل کامل این مشکل، گوگل باید تک تک فریم‌های تمام ویدیوهای استفاده شده برای آموزش Veo 3 را بررسی کند، سپس قبل از آموزش مجدد مدل، ویدیوهای دارای زیرنویس را حذف یا برچسب‌گذاری مجدد کند. چاکرابارتی افزود که این کار هفته‌ها طول خواهد کشید.

کاترینا سیزک، مستندساز و کارگردان هنری در آزمایشگاه مستندسازی آزاد MIT، استدلال می‌کند که این موضوع نشان‌دهنده‌ی تمایل گوگل به انتشار محصولاتی است که هنوز به‌طور کامل تکمیل نشده‌اند.

سیزک اظهار داشت: «گوگل به یک پیروزی نیاز دارد. آنها باید اولین کسی باشند که ابزاری را منتشر می‌کنند که می‌تواند صدایی ایجاد کند که با حرکات لب مطابقت داشته باشد. و این مهم‌تر از رفع مشکل زیرنویس است.»

منبع: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html