
Veo3, Google का नवीनतम AI मॉडल है, जिसे मई के अंत में लॉन्च किया गया था। यह उपयोगकर्ताओं को वॉइस कमांड के आधार पर वीडियो बनाने की सुविधा देता है। इस मॉडल ने कंटेंट क्रिएशन समुदाय का ध्यान आकर्षित किया है क्योंकि यह ध्वनि और संवाद के साथ वीडियो बनाने की अनुमति देता है, जो Google के पिछले संस्करणों में उपलब्ध नहीं था, जिससे वीडियो अधिक यथार्थवादी बन जाते हैं।
कई उपयोगकर्ता Veo 3 के 8 सेकंड तक लंबे वीडियो क्लिप का उपयोग विज्ञापन, ASMR वीडियो, काल्पनिक फिल्म ट्रेलर और हास्यपूर्ण स्ट्रीट इंटरव्यू बनाने के लिए करते हैं।
ऑस्कर-नामांकित निर्देशक डैरेन एरोनोफ़्स्की ने इस टूल का उपयोग करके 'एन्सेस्ट्रा' नामक एक लघु फिल्म बनाई। प्रेस कॉन्फ्रेंस में, गूगल डीपमाइंड के सीईओ डेमिस हसाबिस ने वीओ 3 की तुलना सिनेमा में "मूक फिल्म युग से बाहर निकलने" के एक कदम से की।
Veo 3 से "लगातार" उपशीर्षक
हालांकि, कई उपयोगकर्ताओं ने पाया है कि यह टूल उम्मीद के मुताबिक काम नहीं करता है। संवाद वाले क्लिप बनाते समय, Veo 3 अक्सर अपने आप ही अर्थहीन, अव्यवस्थित उपशीर्षक जोड़ देता है, भले ही कमांड में स्पष्ट रूप से उपशीर्षक न जोड़ने का निर्देश दिया गया हो।
इन सबटाइटल्स को हटाना आसान नहीं है। उपयोगकर्ताओं को क्लिप को दोबारा बनाना पड़ता है, जिसके लिए उन्हें "टोकन" खर्च करने पड़ते हैं, यानी Google पर और पैसे खर्च करने पड़ते हैं, या फिर वे सबटाइटल्स हटाने के लिए बाहरी टूल का इस्तेमाल कर सकते हैं, या फिर वीडियो को ट्रिम करके सबटाइटल्स हटा सकते हैं।
![]() |
Veo 3 यथार्थवादी दृश्य और होंठों की हलचल से मेल खाने वाले संवाद प्रस्तुत करता है, लेकिन उपशीर्षक अर्थहीन हैं। फोटो: Lesswrong । |
गूगल लैब्स और जेमिनी के उपाध्यक्ष जोश वुडवर्ड ने 9 जून को X पर पोस्ट किया कि गूगल ने स्पैम की समस्या को कम करने के लिए पैच विकसित किए हैं। लेकिन एक महीने से अधिक समय बीत जाने के बाद भी, उपयोगकर्ता गूगल लैब्स के डिस्कॉर्ड चैनल पर इस समस्या की शिकायत करते रहते हैं, जिससे पता चलता है कि बड़े एआई मॉडल में बग ठीक करना आसान नहीं है।
Google के पिछले AI वीडियो निर्माण मॉडलों की तरह, Veo 3 भी एक सशुल्क मॉडल है, जिसकी शुरुआती कीमत $249.99 प्रति माह है। 8 सेकंड का वीडियो बनाने के लिए, उपयोगकर्ता Flow, Gemini या किसी अन्य प्लेटफ़ॉर्म में विवरण दर्ज करते हैं। Veo 3 का उपयोग करके प्रत्येक क्लिप बनाने में कम से कम 20 AI क्रेडिट लगते हैं, और उपयोगकर्ता $25 का अतिरिक्त भुगतान करके 2,500 क्रेडिट प्राप्त कर सकते हैं।
विज्ञापन निर्देशक मोना वेइस का कहना है कि सबटाइटल हटाने के लिए फुटेज को दोबारा बनाना एक बड़ा खर्चा बनता जा रहा है। वे कहती हैं, "अगर आप Veo3 का इस्तेमाल करके संवाद वाला कोई दृश्य बनाते हैं, तो लगभग 40% आउटपुट में अर्थहीन सबटाइटल होंगे, जिससे वीडियो बेकार हो जाएगा। मनपसंद दृश्य पाने में बहुत पैसा खर्च होता है, लेकिन अंत में वह बेकार हो जाता है।"
![]() |
Veo 3 पर अर्थहीन सबटाइटल हटाना मुश्किल है। फोटो: टेक्नोलॉजी रिव्यू । |
जब वेइस ने अपने बर्बाद हुए क्रेडिट वापस पाने की उम्मीद में डिस्कॉर्ड के ज़रिए गूगल लैब्स को इस समस्या की सूचना दी, तो सहायता टीम ने उन्हें कंपनी के आधिकारिक सहायता विभाग के पास भेज दिया। उन्होंने वेओ 3 की सदस्यता शुल्क वापस करने की पेशकश की, लेकिन क्रेडिट वापस करने से इनकार कर दिया। वेइस ने रिफंड स्वीकार करने से इनकार कर दिया क्योंकि रिफंड स्वीकार करने का मतलब मॉडल तक पहुंच खोना होता।
गूगल लैब्स डिस्कॉर्ड सपोर्ट टीम ने बताया कि आवाज का पता चलने पर सबटाइटल अपने आप सक्रिय हो सकते हैं, और वे इस बग को ठीक करने पर काम कर रहे हैं।
समस्या गूगल के दृष्टिकोण से उत्पन्न होती है।
Veo 3 द्वारा स्वचालित रूप से सबटाइटल डालने का कारण उस डेटा से जुड़ा है जिस पर मॉडल को प्रशिक्षित किया गया था।
हालांकि Google ने अपने मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली डेटा श्रेणियों का विवरण जारी नहीं किया है, लेकिन इसमें संभवतः YouTube और TikTok जैसे प्लेटफॉर्म के वीडियो शामिल हैं, जिनमें से कई में सबटाइटल होते हैं। क्लार्क यूनिवर्सिटी (मैसाचुसेट्स, अमेरिका) में वीडियो शेयरिंग प्लेटफॉर्म और AI के शोधकर्ता शुओ निउ के अनुसार, ये सबटाइटल सीधे वीडियो फ्रेम में एम्बेडेड होते हैं, जिससे प्रशिक्षण डेटा के रूप में उपयोग किए जाने से पहले इन्हें हटाना मुश्किल हो जाता है।
उन्होंने समझाया, "टेक्स्ट-टू-वीडियो मॉडल को रीइन्फोर्समेंट लर्निंग का उपयोग करके प्रशिक्षित किया जाता है ताकि ऐसी सामग्री बनाई जा सके जो मानव निर्मित वीडियो की नकल करती हो, और यदि उन वीडियो में उपशीर्षक हैं, तो मॉडल 'सीख' सकता है कि उपशीर्षक जोड़ने से उत्पाद मानव निर्मित वीडियो जैसा अधिक दिखता है।"
![]() |
Veo 3 यूट्यूब और टिकटॉक वीडियो से प्राप्त मॉडल प्रशिक्षण डेटा से प्रभावित हुआ था। चित्र: मैशेबल । |
गूगल के एक प्रवक्ता ने कहा: “हम वीडियो बनाने की अपनी क्षमताओं को लगातार बेहतर बना रहे हैं, खासकर टेक्स्ट, स्वाभाविक लगने वाली आवाज़ और पूरी तरह से सिंक्रनाइज़्ड ऑडियो के मामले में। हम उपयोगकर्ताओं को प्रोत्साहित करते हैं कि यदि उन्हें परिणाम असंगत लगते हैं तो वे कमांड को दोबारा आज़माएं और लाइक या डिसलाइक फ़ीचर के माध्यम से हमें फ़ीडबैक दें।”
इसके अलावा, स्टोनी ब्रुक विश्वविद्यालय में एआई सिस्टम के शोधकर्ता तुहिन चक्रबर्ती के अनुसार, यह मॉडल "कोई उपशीर्षक नहीं" जैसे संकेतों को इसलिए अनदेखा करता है क्योंकि नकारात्मक कथन (एआई को कुछ न करने का निर्देश देना) आम तौर पर सकारात्मक संकेतों की तुलना में कम प्रभावी होते हैं।
इस समस्या को पूरी तरह से हल करने के लिए, Google को Veo 3 को प्रशिक्षित करने के लिए उपयोग किए गए सभी वीडियो के हर फ्रेम की जांच करनी होगी, फिर मॉडल को दोबारा प्रशिक्षित करने से पहले उपशीर्षक वाले वीडियो को हटाना या पुनः लेबल करना होगा। चक्रबर्ती ने आगे कहा कि इसमें कई सप्ताह लगेंगे।
एमआईटी ओपन डॉक्यूमेंट्री लैब में डॉक्यूमेंट्री फिल्म निर्माता और कला निर्देशक कैटेरीना सिज़ेक का तर्क है कि यह मुद्दा गूगल की उन उत्पादों को जारी करने की इच्छा को दर्शाता है जो अभी पूरी तरह से तैयार नहीं हैं।
सिज़ेक ने कहा, "गूगल को एक बड़ी सफलता चाहिए। उन्हें ऐसा टूल जारी करने वाला पहला बनना होगा जो होंठों की हलचल से मेल खाने वाली ऑडियो बना सके। और यह सबटाइटल की समस्या को ठीक करने से कहीं ज्यादा महत्वपूर्ण है।"
स्रोत: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









टिप्पणी (0)