Vietnam.vn - Nền tảng quảng bá Việt Nam

المشكلة الكبيرة في Veo 3

يقوم هذا النموذج الذكي بإدراج ترجمات غير مفهومة وغير مترابطة في مقاطع الفيديو تلقائيًا بعد أكثر من شهر على إطلاقه. يُظهر هذا الوضع أن جوجل مستعدة لإطلاق منتجات غير مكتملة لعرض قدراتها في مجال الذكاء الاصطناعي.

ZNewsZNews19/07/2025

يُعدّ Veo3 أحدث نموذج ذكاء اصطناعي من جوجل، وقد أُطلق في أواخر مايو، ويتيح للمستخدمين إنشاء مقاطع فيديو باستخدام الأوامر الصوتية. وقد حظي هذا النموذج باهتمام مجتمع صناعة المحتوى، إذ يسمح بإنشاء مقاطع فيديو مزودة بالصوت والحوار، وهي ميزة لم تكن متوفرة في الإصدارات السابقة من نموذج جوجل، مما يجعلها أكثر واقعية.

يستخدم العديد من المستخدمين مقاطع الفيديو من تطبيق Veo 3، والتي تصل مدتها إلى 8 ثوانٍ، لإنشاء إعلانات تجارية، ومقاطع فيديو ASMR، ومقاطع دعائية لأفلام خيالية، ومقابلات فكاهية في الشوارع.

استخدم المخرج دارين أرونوفسكي، المرشح لجائزة الأوسكار، هذه الأداة لإنتاج فيلم قصير بعنوان "أنسيسترا". وفي المؤتمر الصحفي، شبّه ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، جهاز Veo 3 بأنه نقلة نوعية في عالم السينما، إذ مثّل "خروجًا من عصر السينما الصامتة".

ترجمة "مستمرة" من Veo 3

مع ذلك، لاحظ العديد من المستخدمين أن هذه الأداة لا تعمل كما هو متوقع. فعند إنشاء مقاطع فيديو تحتوي على حوار، يقوم برنامج Veo 3 غالبًا بإدراج ترجمات غير مفهومة ومشوشة تلقائيًا، حتى عندما ينص الأمر بوضوح على عدم إضافة ترجمات.

إزالة هذه الترجمة ليست بالأمر السهل. يضطر المستخدمون إلى إعادة إنشاء المقطع، مما يعني إنفاق "رموز" وبالتالي إنفاق المزيد من المال على جوجل، أو استخدام أدوات خارجية لإزالة الترجمة، أو قص الفيديو لإزالة الترجمة.

video AI anh 1

يُنتج جهاز Veo 3 صورًا واقعية وحوارًا يتطابق مع حركة الشفاه، لكن الترجمة غير مفهومة. الصورة: Lesswrong .

نشر جوش وودوارد، نائب رئيس مختبرات جوجل وجيميني، على منصة X في التاسع من يونيو أن جوجل قد طورت تحديثات للحد من مشكلة الرسائل المزعجة. ولكن بعد مرور أكثر من شهر، لا يزال المستخدمون يبلغون عن هذه المشكلة على قناة ديسكورد الخاصة بمختبرات جوجل، مما يدل على أن إصلاح الأخطاء في نماذج الذكاء الاصطناعي الضخمة ليس بالأمر السهل.

على غرار نماذج جوجل السابقة لإنشاء مقاطع الفيديو بالذكاء الاصطناعي، يُعدّ Veo 3 نموذجًا مدفوعًا، يبدأ سعره من 249.99 دولارًا أمريكيًا شهريًا. لإنشاء مقطع فيديو مدته 8 ثوانٍ، يُدخل المستخدمون وصفًا في Flow أو Gemini أو أي منصة أخرى. يتطلب إنشاء كل مقطع باستخدام Veo 3 ما لا يقل عن 20 رصيدًا من الذكاء الاصطناعي، ويمكن للمستخدمين شحن رصيدهم مقابل 25 دولارًا أمريكيًا ليصل إلى 2500 رصيد.

تقول منى فايس، وهي مخرجة إعلانات، إن إعادة إنتاج اللقطات لإزالة الترجمة أصبح مكلفًا للغاية. وتضيف: "إذا أنشأت مشهدًا حواريًا باستخدام برنامج Veo3، فإن حوالي 40% من الناتج سيحتوي على ترجمة غير مفهومة، مما يجعل الفيديو غير قابل للاستخدام. يكلف الأمر الكثير من المال للحصول على مشهد يعجبك، لكنه في النهاية يصبح غير قابل للاستخدام".

video AI anh 2

يصعب إزالة الترجمة غير ذات المعنى على جهاز Veo 3. الصورة: Technology Review .

عندما أبلغت وايس مختبرات جوجل بالمشكلة عبر ديسكورد على أمل استعادة رصيدها الضائع، أحالها فريق الدعم إلى قسم الدعم الرسمي للشركة. عرضوا عليها استرداد رسوم اشتراك Veo 3، لكن ليس الرصيد. رفضت وايس العرض لأن قبول الاسترداد يعني فقدان الوصول إلى النموذج.

ذكر فريق دعم Google Labs Discord أنه قد يتم تفعيل الترجمة تلقائيًا في حالة اكتشاف الصوت، وأنهم يعملون على إصلاح هذا الخلل.

تكمن المشكلة في نهج جوجل.

يرجع سبب قيام Veo 3 بإدراج الترجمة تلقائيًا إلى البيانات التي تم تدريب النموذج عليها.

رغم أن جوجل لم تُفصح عن تفاصيل فئات البيانات المستخدمة لتدريب نماذجها، فمن المرجح أنها تشمل مقاطع فيديو من منصات مثل يوتيوب وتيك توك، والتي يحتوي العديد منها على ترجمة. ووفقًا لشوو نيو، الباحث في منصات مشاركة الفيديو والذكاء الاصطناعي بجامعة كلارك (ماساتشوستس، الولايات المتحدة الأمريكية)، فإن هذه الترجمة مُدمجة مباشرةً في إطارات الفيديو، مما يجعل إزالتها قبل استخدامها كبيانات تدريب أمرًا صعبًا.

وأوضح قائلاً: "يتم تدريب نماذج تحويل النص إلى فيديو باستخدام التعلم المعزز لإنشاء محتوى يحاكي مقاطع الفيديو التي يصنعها الإنسان، وإذا كانت مقاطع الفيديو هذه تحتوي على ترجمة، فيمكن للنموذج أن "يتعلم" أن إضافة الترجمة تجعل المنتج أقرب إلى الفيديو الذي يصنعه الإنسان".

video AI anh 3

تأثر جهاز Veo 3 ببيانات تدريب النموذج من فيديوهات يوتيوب وتيك توك. الصورة: ماشابل .

قال متحدث باسم جوجل: "نعمل باستمرار على تحسين قدراتنا في إنشاء مقاطع الفيديو، لا سيما فيما يتعلق بالنصوص، والصوت الطبيعي، والصوت المتزامن تمامًا. ونشجع المستخدمين على إعادة محاولة تنفيذ الأمر إذا وجدوا النتائج غير متسقة، وتقديم ملاحظاتهم إلينا من خلال ميزة الإعجاب أو عدم الإعجاب."

علاوة على ذلك، فإن السبب في تجاهل هذا النموذج لطلبات مثل "لا ترجمة" هو أن العبارات السلبية (التي توجه الذكاء الاصطناعي بعدم القيام بشيء ما) تكون بشكل عام أقل فعالية من الطلبات الإيجابية، وفقًا لتوهين تشاكرابارتي، الباحث في أنظمة الذكاء الاصطناعي في جامعة ستوني بروك.

لحل المشكلة بشكل كامل، سيتعين على جوجل فحص كل إطار من جميع مقاطع الفيديو المستخدمة لتدريب Veo 3، ثم إزالة مقاطع الفيديو التي تحتوي على ترجمة أو إعادة تصنيفها قبل إعادة تدريب النموذج. وأضاف تشاكرابارتي أن هذا سيستغرق أسابيع.

تجادل كاترينا سيزيك، وهي مخرجة أفلام وثائقية ومديرة فنية في مختبر MIT Open Documentary Lab، بأن هذه المشكلة تُظهر استعداد جوجل لإصدار منتجات لم تكتمل بعد بشكل كامل.

"تحتاج جوجل إلى تحقيق نجاح"، صرّح سيزيك. "يجب أن تكون أول من يُصدر أداة قادرة على إنشاء صوت يتطابق مع حركة الشفاه. وهذا أهم من حل مشكلة الترجمة."

المصدر: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


تعليق (0)

يرجى ترك تعليق لمشاركة مشاعرك!

نفس الفئة

نفس المؤلف

إرث

شكل

الشركات

الشؤون الجارية

النظام السياسي

محلي

منتج

Happy Vietnam
صوت الناي من تأليف الموسيقي لي هوانغ

صوت الناي من تأليف الموسيقي لي هوانغ

يستريح

يستريح

سوق السمك في مسقط رأسي ينبض بالحياة!

سوق السمك في مسقط رأسي ينبض بالحياة!