Veo 3 की बड़ी समस्या

यह AI मॉडल अपने लॉन्च के एक महीने से भी अधिक समय बाद वीडियो में स्वचालित रूप से अस्पष्ट शब्द डाल रहा है, जिससे पता चलता है कि गूगल अपनी AI क्षमताओं को प्रदर्शित करने के लिए अधूरे उत्पाद जारी करने को तैयार है।

ZNews•19/07/2025

Veo3, मई के अंत में लॉन्च किया गया Google का नवीनतम AI मॉडल है, जो कमांड के आधार पर वीडियो बनाने की क्षमता प्रदान करता है। इस मॉडल ने कंटेंट निर्माण समुदाय का ध्यान आकर्षित किया है क्योंकि यह ध्वनि और संवाद के साथ वीडियो बनाने की अनुमति देता है, एक ऐसी सुविधा जो Google के पिछले मॉडल संस्करण में उपलब्ध नहीं थी, जिससे यह अधिक यथार्थवादी बन गया है।

कई उपयोगकर्ता विज्ञापन, ASMR वीडियो, फंतासी मूवी ट्रेलर और हास्यपूर्ण सड़क साक्षात्कार बनाने के लिए 8 सेकंड तक लंबे Veo 3 वीडियो का उपयोग करते हैं।

ऑस्कर-नामांकित निर्देशक डैरेन एरोनोफ़्स्की ने इस टूल का इस्तेमाल करके "एंसेस्ट्रा" नामक एक लघु फ़िल्म बनाई। एक प्रेस कॉन्फ्रेंस के दौरान, गूगल डीपमाइंड के सीईओ डेमिस हसाबिस ने वीओ 3 की तुलना सिनेमा में मूक युग से दूर जाने से की।

Veo 3 से "स्थायी" उपशीर्षक

हालाँकि, कई उपयोगकर्ताओं ने पाया है कि यह टूल अपेक्षानुसार काम नहीं करता। संवादों वाली क्लिप बनाते समय, Veo 3 अक्सर अर्थहीन, अव्यवस्थित उपशीर्षक अपने आप डाल देता है, तब भी जब कमांड में स्पष्ट रूप से उपशीर्षक न जोड़ने का निर्देश दिया गया हो।

इन सबटाइटल्स को हटाना आसान नहीं है। उपयोगकर्ताओं को क्लिप को फिर से बनाने, "टोकन" खर्च करने, यानी गूगल के लिए ज़्यादा पैसे खर्च करने, या सबटाइटल्स हटाने के लिए किसी बाहरी टूल का इस्तेमाल करने, या सबटाइटल्स हटाने के लिए वीडियो को क्रॉप करने के लिए मजबूर होना पड़ता है।

Veo 3 जीवंत चित्र प्रस्तुत करता है, संवाद मुँह की हरकतों से मेल खाते हैं, लेकिन उपशीर्षक अर्थहीन हैं। फोटो: लेसरोंग ।

गूगल लैब्स और जेमिनी के उपाध्यक्ष जोश वुडवर्ड ने 9 जून को एक्स पर पोस्ट किया था कि गूगल ने स्पैम कम करने के लिए पैच विकसित किए हैं। लेकिन एक महीने से भी ज़्यादा समय बाद, उपयोगकर्ता गूगल लैब्स डिस्कॉर्ड चैनल पर इस समस्या की रिपोर्ट करना जारी रखे हुए हैं, जिससे पता चलता है कि बड़े एआई मॉडल में बग्स को ठीक करना आसान नहीं है।

Google के पिछले वीडियो-जनरेटिंग AI मॉडल की तरह, Veo 3 भी एक पेड मॉडल है, जिसकी शुरुआती कीमत $249.99 प्रति माह है। 8 सेकंड का वीडियो बनाने के लिए, उपयोगकर्ता फ़्लो, जेमिनी या किसी अन्य प्लेटफ़ॉर्म पर विवरण दर्ज करते हैं। Veo 3 से बनाई गई प्रत्येक क्लिप की कीमत कम से कम 20 AI क्रेडिट है, और उपयोगकर्ता $25 देकर 2,500 क्रेडिट प्राप्त कर सकते हैं।

कमर्शियल डायरेक्टर मोना वीस ने कहा कि सबटाइटल हटाने के लिए फुटेज को दोबारा बनाना एक बड़ा खर्च बनता जा रहा है। उन्होंने कहा, "अगर आप Veo3 के साथ कोई बोला हुआ सीन बनाते हैं, तो लगभग 40 प्रतिशत आउटपुट में बेतुके सबटाइटल होंगे जो वीडियो को बेकार बना देंगे।" उन्होंने आगे कहा, "एक ऐसा सीन पाने में बहुत पैसा लगता है जो आपको पसंद हो, और जो इस्तेमाल करने लायक न हो।"

Veo 3 पर निरर्थक उपशीर्षक हटाना कठिन है। फोटो: टेक्नोलॉजी रिव्यू ।

जब वीस ने बर्बाद हुए क्रेडिट की वापसी की उम्मीद में डिस्कॉर्ड के ज़रिए गूगल लैब्स को इस समस्या की सूचना दी, तो सहायता टीम ने उन्हें कंपनी के आधिकारिक सहायता विभाग में स्थानांतरित कर दिया। उन्होंने Veo 3 सब्सक्रिप्शन की कीमत तो वापस करने की पेशकश की, लेकिन क्रेडिट नहीं। वीस ने मना कर दिया क्योंकि वापसी स्वीकार करने का मतलब मॉडल तक पहुँच खोना होता।

गूगल लैब्स की डिस्कॉर्ड सपोर्ट टीम ने कहा कि यदि भाषण का पता चलता है तो कैप्शन स्वचालित रूप से सक्षम हो सकते हैं, और वे इसे ठीक करने पर काम कर रहे हैं।

गूगल के दृष्टिकोण की समस्या

Veo 3 द्वारा स्वचालित रूप से कैप्शन सम्मिलित करने का कारण वह डेटा है जिस पर मॉडल को प्रशिक्षित किया जाता है।

हालांकि गूगल ने मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली डेटा श्रेणियों का खुलासा नहीं किया, लेकिन इसमें संभवतः यूट्यूब और टिकटॉक के वीडियो शामिल थे, जिनमें से कई में कैप्शन सीधे फ्रेम में एम्बेडेड होते हैं, जिससे उन्हें प्रशिक्षण डेटा के रूप में उपयोग करने से पहले निकालना मुश्किल हो जाता है, मैसाचुसेट्स में क्लार्क विश्वविद्यालय में वीडियो शेयरिंग प्लेटफॉर्म और एआई के एक शोधकर्ता शुओ निउ के अनुसार।

"टेक्स्ट-टू-वीडियो मॉडल को मानव-जनित वीडियो की नकल करने वाली सामग्री उत्पन्न करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जाता है, और यदि उन वीडियो में उपशीर्षक हैं, तो मॉडल यह 'सीख' सकता है कि उपशीर्षक जोड़ने से उत्पाद मानव-जनित वीडियो की तरह अधिक हो जाता है," वे बताते हैं।

Veo 3, YouTube और TikTok वीडियो से प्राप्त मॉडल प्रशिक्षण डेटा से प्रभावित है। फ़ोटो: Mashable ।

गूगल के एक प्रवक्ता ने कहा, "हम अपनी वीडियो निर्माण क्षमताओं में लगातार सुधार कर रहे हैं, खासकर टेक्स्ट, स्वाभाविक भाषण और पूरी तरह से सिंक्रोनाइज़्ड ऑडियो के मामले में।" उन्होंने आगे कहा, "हम उपयोगकर्ताओं को सलाह देते हैं कि अगर उन्हें असंगत परिणाम दिखाई दें, तो वे अपने कमांड दोबारा आज़माएँ और परिणामों को पसंद या नापसंद करके हमें फ़ीडबैक दें।"

इसके अतिरिक्त, स्टोनी ब्रुक विश्वविद्यालय में एआई सिस्टम के शोधकर्ता तुहिन चक्रवर्ती के अनुसार, मॉडल "नो सबटाइटल्स" जैसे निर्देशों को अनदेखा करता है, क्योंकि नकारात्मक कथन (एआई को कुछ न करने के लिए कहना) अक्सर सकारात्मक संकेतों की तुलना में कम प्रभावी होते हैं।

चक्रवर्ती ने कहा कि समस्या को पूरी तरह से ठीक करने के लिए, गूगल को Veo 3 को प्रशिक्षित करने के लिए उपयोग किए गए सभी वीडियो के प्रत्येक फ्रेम की जांच करनी होगी, फिर मॉडल को पुनः प्रशिक्षित करने से पहले वीडियो को कैप्शन के साथ हटाना या पुनः लेबल करना होगा, जिसमें कई सप्ताह लगेंगे।

एमआईटी ओपन डॉक्यूमेंट्री लैब में डॉक्यूमेंट्री फिल्म निर्माता और कला निर्देशक कैटरीना सिज़ेक का कहना है कि यह मुद्दा दिखाता है कि गूगल अभी भी ऐसे उत्पाद जारी करने को तैयार है जो अभी तक पूरी तरह तैयार नहीं हुए हैं।

"गूगल को जीत की ज़रूरत है," सिज़ेक ने कहा। "उन्हें सबसे पहले ऐसा टूल जारी करना होगा जो उनके होठों की आवाज़ से मेल खा सके। और यह कैप्शनिंग की समस्या को ठीक करने से ज़्यादा ज़रूरी है।"

स्रोत: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html