
Veo3 هو أحدث نموذج ذكاء اصطناعي من جوجل، والذي أُطلق أواخر مايو، ويُتيح إنشاء مقاطع فيديو بناءً على الأوامر. وقد جذب هذا النموذج اهتمام مجتمع مُنشئي المحتوى لأنه يُتيح إنشاء مقاطع فيديو مُرفقة بالصوت والحوار، وهي ميزة لم تكن مُتاحة في الإصدار السابق من نموذج جوجل، مما يجعله أكثر واقعية.
يستخدم العديد من المستخدمين مقاطع فيديو Veo 3، التي يصل طولها إلى 8 ثوانٍ، لإنشاء إعلانات تجارية، ومقاطع فيديو ASMR، ومقاطع دعائية لأفلام خيالية، ومقابلات شوارع فكاهية.
استخدم المخرج دارين أرونوفسكي، المرشح لجائزة الأوسكار، هذه الأداة لإنتاج فيلم قصير بعنوان "أنسيسترا". وخلال مؤتمر صحفي، شبّه ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، فيو 3 بانطلاقة من عصر الأفلام الصامتة في السينما.
ترجمة "مستمرة" من Veo 3
مع ذلك، وجد العديد من المستخدمين أن الأداة لا تعمل كما هو متوقع. عند إنشاء مقاطع فيديو تتضمن حوارًا، غالبًا ما يُدرج Veo 3 تلقائيًا ترجمات غير مفهومة وغير مرتبة، حتى عندما ينص الأمر صراحةً على عدم إضافة ترجمات.
إزالة هذه الترجمات ليست بالأمر السهل. يُجبر المستخدمون على إعادة إنشاء المقطع، أو إنفاق "رموز" تُضيف إلى أرباح جوجل، أو استخدام أداة خارجية لإزالة الترجمات، أو اقتصاص الفيديو لإزالتها.
![]() |
يُنتج Veo 3 صورًا واقعية، والحوارات تُطابق حركات الفم، لكن الترجمة التوضيحية لا معنى لها. الصورة: Lesswrong . |
نشر جوش وودوارد، نائب رئيس مختبرات جوجل وجيميني، على منصة X في 9 يونيو/حزيران أن جوجل طورت تصحيحات للحد من البريد العشوائي. ولكن بعد أكثر من شهر، يواصل المستخدمون الإبلاغ عن المشكلة على قناة مختبرات جوجل ديسكورد، مما يُظهر أن إصلاح الأخطاء في نماذج الذكاء الاصطناعي الكبيرة ليس بالأمر السهل.
مثل نماذج الذكاء الاصطناعي السابقة من جوجل لإنشاء الفيديوهات، يُعد Veo 3 نموذجًا مدفوعًا، يبدأ سعره من 249.99 دولارًا أمريكيًا شهريًا. لإنشاء فيديو مدته 8 ثوانٍ، يُدخل المستخدمون وصفًا في Flow أو Gemini أو أي منصة أخرى. يكلف كل مقطع فيديو يُنشأ باستخدام Veo 3 ما لا يقل عن 20 رصيد ذكاء اصطناعي، ويمكن للمستخدمين شحنه بمبلغ 25 دولارًا أمريكيًا للحصول على 2500 رصيد.
قالت منى وايس، مديرة الإعلانات، إن إعادة إنتاج اللقطات لإزالة الترجمة أصبحت تُكلف مبالغ طائلة. وأضافت: "إذا أنتجتَ مشهدًا صوتيًا باستخدام Veo3، فسيحتوي حوالي 40% من الناتج على ترجمة غير منطقية تجعل الفيديو غير صالح للاستخدام. إن الحصول على مشهد يعجبك، وهو غير صالح للاستخدام، يتطلب تكلفة باهظة".
![]() |
من الصعب إزالة الترجمات غير المنطقية في Veo 3. الصورة: Technology Review . |
عندما أبلغت وايس مختبرات جوجل عبر ديسكورد بالمشكلة أملاً في استرداد قيمة الرصيد المفقود، أحالها فريق الدعم إلى قسم الدعم الرسمي للشركة. عرضوا عليها استرداد قيمة اشتراك Veo 3، ولكن ليس الرصيد. رفضت وايس لأن قبول الاسترداد يعني فقدان الوصول إلى النموذج.
قال فريق دعم Discord التابع لـ Google Labs أنه يمكن تمكين التسميات التوضيحية تلقائيًا إذا تم اكتشاف الكلام، وأنهم يعملون على إصلاح ذلك.
المشكلة في نهج جوجل
السبب وراء قيام Veo 3 بإدراج التسميات التوضيحية تلقائيًا يأتي من البيانات التي تم تدريب النموذج عليها.
وبينما لم تكشف جوجل عن فئات البيانات المستخدمة لتدريب النموذج، فمن المرجح أنها تضمنت مقاطع فيديو من يوتيوب وتيك توك، وكثير منها يحتوي على تعليقات توضيحية مدمجة مباشرة في الإطار، مما يجعل من الصعب إزالتها قبل استخدامها كبيانات تدريب، وفقًا لشو نيو، الباحث في منصات مشاركة الفيديو والذكاء الاصطناعي في جامعة كلارك في ماساتشوستس.
"يتم تدريب نماذج تحويل النص إلى فيديو باستخدام التعلم التعزيزي لتوليد محتوى يحاكي مقاطع الفيديو التي ينشئها الإنسان، وإذا كانت هذه المقاطع تحتوي على ترجمات، يمكن للنموذج أن "يتعلم" أن إضافة الترجمات تجعل المنتج أشبه بمقاطع الفيديو التي ينشئها الإنسان"، كما يوضح.
![]() |
يتأثر Veo 3 ببيانات تدريب النموذج من مقاطع فيديو YouTube وTikTok. الصورة: Mashable . |
قال متحدث باسم جوجل: "نعمل باستمرار على تحسين قدراتنا في إنشاء الفيديوهات، لا سيما فيما يتعلق بالنصوص والكلام الطبيعي والصوت المتزامن تمامًا". وأضاف: "نشجع المستخدمين على إعادة تجربة أوامرهم إذا لاحظوا نتائج غير متسقة، وعلى إبداء ملاحظاتهم من خلال الإعجاب أو عدم الإعجاب بالنتائج".
وبالإضافة إلى ذلك، فإن السبب وراء تجاهل النموذج للتعليمات مثل "لا توجد ترجمات" هو أن العبارات السلبية (التي تطلب من الذكاء الاصطناعي عدم القيام بشيء ما) غالبًا ما تكون أقل فعالية من المطالبات الإيجابية، وفقًا لتوهين تشاكرابورتي، الباحث في أنظمة الذكاء الاصطناعي في جامعة ستوني بروك.
ولإصلاح المشكلة بشكل كامل، يتعين على جوجل فحص كل إطار من جميع مقاطع الفيديو التي استخدمتها لتدريب Veo 3، ثم إزالة مقاطع الفيديو أو إعادة تسميتها بالتسميات التوضيحية قبل إعادة تدريب النموذج، وهو الأمر الذي سيستغرق أسابيع، كما أضاف تشاكرابورتي.
تقول كاترينا سيزيك، مخرجة الأفلام الوثائقية والمديرة الفنية في مختبر MIT Open Documentary Lab، إن هذه القضية تُظهر أن جوجل لا تزال راغبة في إصدار منتجات لم يتم الانتهاء منها بعد.
قال سيزيك: "جوجل بحاجة إلى فوز. عليها أن تكون أول من يُطلق أداةً تُطابق صوت شفتيها. وهذا أهم من حل مشكلة الترجمة."
المصدر: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
تعليق (0)