مشكلة كبيرة في Veo 3

Veo3 هو أحدث نموذج ذكاء اصطناعي من جوجل، والذي أُطلق في نهاية مايو، ويُتيح إنشاء مقاطع فيديو بناءً على الأوامر. وقد جذب هذا النموذج اهتمام مجتمع مُنشئي المحتوى، إذ يُتيح إنشاء مقاطع فيديو مُرفقة بالصوت والحوار، وهي ميزة لم تكن مُتاحة في الإصدار السابق من جوجل، مما يجعله أكثر واقعية.

يستخدم العديد من المستخدمين مقاطع فيديو Veo 3، والتي يصل طولها إلى 8 ثوانٍ، لإنشاء إعلانات تجارية، ومقاطع فيديو ASMR، ومقاطع دعائية لأفلام الخيال، ومقابلات شوارع فكاهية.

استخدم المخرج دارين أرونوفسكي، المرشح لجائزة الأوسكار، هذه الأداة لإنتاج فيلم قصير بعنوان "أنسيسترا". وخلال مؤتمر صحفي، شبّه ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، فيو 3 بانطلاقة من عصر الأفلام الصامتة في السينما.

ترجمة "مستمرة" من Veo 3

مع ذلك، وجد العديد من المستخدمين أن الأداة لا تعمل كما هو متوقع. عند إنشاء مقاطع فيديو تتضمن حوارًا، غالبًا ما يُدرج Veo 3 تلقائيًا ترجمات غير مفهومة وغير مرتبة، حتى عندما ينص الأمر صراحةً على عدم إضافة ترجمات.

إزالة هذه الترجمات ليست بالأمر السهل. يُجبر المستخدمون على إعادة إنشاء المقطع، أو إنفاق "رموز" (أي دفع المزيد من المال لجوجل)، أو استخدام أداة خارجية لإزالة الترجمات، أو اقتصاص الفيديو لإزالتها.

يُنتج Veo 3 صورًا واقعية، والحوارات تُطابق حركات الفم، لكن الترجمة التوضيحية لا معنى لها. الصورة: Lesswrong .

نشر جوش وودوارد، نائب رئيس مختبرات جوجل وجيميني، على منصة X في 9 يونيو/حزيران أن جوجل طورت تصحيحات للحد من البريد العشوائي. ولكن بعد أكثر من شهر، يواصل المستخدمون الإبلاغ عن المشكلة على قناة مختبرات جوجل ديسكورد، مما يُظهر أن إصلاح الأخطاء في نماذج الذكاء الاصطناعي الكبيرة ليس بالأمر السهل.

مثل نماذج الذكاء الاصطناعي السابقة من جوجل لإنشاء الفيديوهات، يُعد Veo 3 نموذجًا مدفوعًا، يبدأ سعره من 249.99 دولارًا أمريكيًا شهريًا. لإنشاء فيديو مدته 8 ثوانٍ، يُدخل المستخدمون وصفًا في Flow أو Gemini أو أي منصة أخرى. يكلف كل مقطع فيديو مُنشأ باستخدام Veo 3 ما لا يقل عن 20 رصيد ذكاء اصطناعي، ويمكن للمستخدمين شحنه للحصول على 2500 رصيد مقابل 25 دولارًا أمريكيًا .

قالت منى وايس، مديرة الإعلانات، إن إعادة إنتاج اللقطات لإزالة الترجمة أصبحت تُكلف مبالغ طائلة. وأضافت: "إذا أنتجتَ مشهدًا صوتيًا باستخدام Veo3، فإن حوالي 40% من الناتج سيحتوي على ترجمة غير مفهومة تجعل الفيديو غير صالح للاستخدام. يتطلب الأمر تكلفة باهظة للحصول على مشهد يعجبك، ولكنه في النهاية غير صالح للاستخدام".

من الصعب إزالة الترجمات غير ذات المعنى في Veo 3. الصورة: Technology Review .

عندما أبلغت وايس مختبرات جوجل عبر ديسكورد بالمشكلة أملاً في استرداد قيمة الرصيد المفقود، أحالها فريق الدعم إلى قسم الدعم الرسمي للشركة. عرضوا عليها استرداد قيمة اشتراك Veo 3، ولكن ليس الرصيد. رفضت وايس لأن قبول الاسترداد يعني فقدان الوصول إلى النموذج.

يقول فريق دعم Discord التابع لـ Google Labs أنه يمكن تمكين التسميات التوضيحية تلقائيًا إذا تم اكتشاف الكلام، وأنهم يعملون على حل هذه المشكلة.

المشكلة في نهج جوجل

السبب وراء قيام Veo 3 بإدراج الترجمات تلقائيًا يأتي من البيانات التي تم تدريب النموذج عليها.

وفي حين لم تكشف جوجل عن تفاصيل فئات البيانات المستخدمة لتدريب النموذج، فمن المرجح أنها تضمنت مقاطع فيديو من يوتيوب وتيك توك، وكثير منها يحتوي على تعليقات توضيحية مدمجة مباشرة في الإطار، مما يجعل من الصعب إزالتها قبل استخدامها كبيانات تدريب للنموذج، وفقًا لشو نيو، وهو باحث في منصات مشاركة الفيديو والذكاء الاصطناعي في جامعة كلارك (ماساتشوستس، الولايات المتحدة).

"يتم تدريب نماذج تحويل النص إلى فيديو باستخدام التعلم التعزيزي لتوليد محتوى يحاكي مقاطع الفيديو التي ينشئها الإنسان، وإذا كانت هذه المقاطع تحتوي على ترجمات، يمكن للنموذج أن "يتعلم" أن إضافة الترجمات تجعل المنتج أشبه بمقاطع الفيديو التي ينشئها الإنسان"، كما يوضح.

يتأثر Veo 3 ببيانات تدريب النموذج من فيديوهات YouTube وTikTok. الصورة: Mashable .

قال متحدث باسم جوجل: "نعمل باستمرار على تحسين قدراتنا في إنشاء الفيديوهات، لا سيما فيما يتعلق بالنصوص والكلام الطبيعي والصوت المتزامن تمامًا". وأضاف: "نشجع المستخدمين على إعادة تجربة أوامرهم إذا لاحظوا نتائج غير متسقة، وإبداء ملاحظاتهم من خلال الإعجاب أو عدم الإعجاب بالنتائج".

وبالإضافة إلى ذلك، فإن السبب وراء تجاهل النموذج للتعليمات مثل "لا توجد ترجمات" هو أن العبارات السلبية (طلب من الذكاء الاصطناعي عدم القيام بشيء ما) غالبًا ما تكون أقل فعالية من المطالبات الإيجابية، وفقًا لتوهين تشاكرابورتي، الباحث في أنظمة الذكاء الاصطناعي في جامعة ستوني بروك.

ولإصلاح المشكلة بشكل كامل، يتعين على جوجل فحص كل إطار من جميع مقاطع الفيديو المستخدمة لتدريب Veo 3، ثم إزالة مقاطع الفيديو المترجمة أو إعادة تسميتها قبل إعادة تدريب النموذج، وهو الأمر الذي سيستغرق أسابيع، كما أضاف تشاكرابورتي.

تقول كاترينا سيزيك، مخرجة الأفلام الوثائقية والمديرة الفنية في مختبر MIT Open Documentary Lab، إن هذه القضية تُظهر أن جوجل لا تزال راغبة في إصدار منتجات لم يتم الانتهاء منها بعد.

قال سيزيك: "جوجل بحاجة إلى فوز. عليها أن تكون أول من يُطلق أداةً تُطابق أصوات الشفاه. وهذا أهم من حل مشكلة الترجمة."

المصدر: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html