Vietnam.vn - Nền tảng quảng bá Việt Nam

Veo 3 के साथ सबसे बड़ी समस्या यही है।

यह एआई मॉडल लॉन्च होने के एक महीने से अधिक समय बाद भी वीडियो में बेतरतीब और अर्थहीन सबटाइटल अपने आप डाल रहा है। यह स्थिति दर्शाती है कि गूगल अपनी एआई क्षमताओं को प्रदर्शित करने के लिए अपूर्ण उत्पादों को जारी करने को तैयार है।

ZNewsZNews19/07/2025

Veo3, Google का नवीनतम AI मॉडल है, जिसे मई के अंत में लॉन्च किया गया था। यह उपयोगकर्ताओं को वॉइस कमांड के आधार पर वीडियो बनाने की सुविधा देता है। इस मॉडल ने कंटेंट क्रिएशन समुदाय का ध्यान आकर्षित किया है क्योंकि यह ध्वनि और संवाद के साथ वीडियो बनाने की अनुमति देता है, जो Google के पिछले संस्करणों में उपलब्ध नहीं था, जिससे वीडियो अधिक यथार्थवादी बन जाते हैं।

कई उपयोगकर्ता Veo 3 के 8 सेकंड तक लंबे वीडियो क्लिप का उपयोग विज्ञापन, ASMR वीडियो, काल्पनिक फिल्म ट्रेलर और हास्यपूर्ण स्ट्रीट इंटरव्यू बनाने के लिए करते हैं।

ऑस्कर-नामांकित निर्देशक डैरेन एरोनोफ़्स्की ने इस टूल का उपयोग करके 'एन्सेस्ट्रा' नामक एक लघु फिल्म बनाई। प्रेस कॉन्फ्रेंस में, गूगल डीपमाइंड के सीईओ डेमिस हसाबिस ने वीओ 3 की तुलना सिनेमा में "मूक फिल्म युग से बाहर निकलने" के एक कदम से की।

Veo 3 से "लगातार" उपशीर्षक

हालांकि, कई उपयोगकर्ताओं ने पाया है कि यह टूल उम्मीद के मुताबिक काम नहीं करता है। संवाद वाले क्लिप बनाते समय, Veo 3 अक्सर अपने आप ही अर्थहीन, अव्यवस्थित उपशीर्षक जोड़ देता है, भले ही कमांड में स्पष्ट रूप से उपशीर्षक न जोड़ने का निर्देश दिया गया हो।

इन सबटाइटल्स को हटाना आसान नहीं है। उपयोगकर्ताओं को क्लिप को दोबारा बनाना पड़ता है, जिसके लिए उन्हें "टोकन" खर्च करने पड़ते हैं, यानी Google पर और पैसे खर्च करने पड़ते हैं, या फिर वे सबटाइटल्स हटाने के लिए बाहरी टूल का इस्तेमाल कर सकते हैं, या फिर वीडियो को ट्रिम करके सबटाइटल्स हटा सकते हैं।

video AI anh 1

Veo 3 यथार्थवादी दृश्य और होंठों की हलचल से मेल खाने वाले संवाद प्रस्तुत करता है, लेकिन उपशीर्षक अर्थहीन हैं। फोटो: Lesswrong

गूगल लैब्स और जेमिनी के उपाध्यक्ष जोश वुडवर्ड ने 9 जून को X पर पोस्ट किया कि गूगल ने स्पैम की समस्या को कम करने के लिए पैच विकसित किए हैं। लेकिन एक महीने से अधिक समय बीत जाने के बाद भी, उपयोगकर्ता गूगल लैब्स के डिस्कॉर्ड चैनल पर इस समस्या की शिकायत करते रहते हैं, जिससे पता चलता है कि बड़े एआई मॉडल में बग ठीक करना आसान नहीं है।

Google के पिछले AI वीडियो निर्माण मॉडलों की तरह, Veo 3 भी एक सशुल्क मॉडल है, जिसकी शुरुआती कीमत $249.99 प्रति माह है। 8 सेकंड का वीडियो बनाने के लिए, उपयोगकर्ता Flow, Gemini या किसी अन्य प्लेटफ़ॉर्म में विवरण दर्ज करते हैं। Veo 3 का उपयोग करके प्रत्येक क्लिप बनाने में कम से कम 20 AI क्रेडिट लगते हैं, और उपयोगकर्ता $25 का अतिरिक्त भुगतान करके 2,500 क्रेडिट प्राप्त कर सकते हैं।

विज्ञापन निर्देशक मोना वेइस का कहना है कि सबटाइटल हटाने के लिए फुटेज को दोबारा बनाना एक बड़ा खर्चा बनता जा रहा है। वे कहती हैं, "अगर आप Veo3 का इस्तेमाल करके संवाद वाला कोई दृश्य बनाते हैं, तो लगभग 40% आउटपुट में अर्थहीन सबटाइटल होंगे, जिससे वीडियो बेकार हो जाएगा। मनपसंद दृश्य पाने में बहुत पैसा खर्च होता है, लेकिन अंत में वह बेकार हो जाता है।"

video AI anh 2

Veo 3 पर अर्थहीन सबटाइटल हटाना मुश्किल है। फोटो: टेक्नोलॉजी रिव्यू

जब वेइस ने अपने बर्बाद हुए क्रेडिट वापस पाने की उम्मीद में डिस्कॉर्ड के ज़रिए गूगल लैब्स को इस समस्या की सूचना दी, तो सहायता टीम ने उन्हें कंपनी के आधिकारिक सहायता विभाग के पास भेज दिया। उन्होंने वेओ 3 की सदस्यता शुल्क वापस करने की पेशकश की, लेकिन क्रेडिट वापस करने से इनकार कर दिया। वेइस ने रिफंड स्वीकार करने से इनकार कर दिया क्योंकि रिफंड स्वीकार करने का मतलब मॉडल तक पहुंच खोना होता।

गूगल लैब्स डिस्कॉर्ड सपोर्ट टीम ने बताया कि आवाज का पता चलने पर सबटाइटल अपने आप सक्रिय हो सकते हैं, और वे इस बग को ठीक करने पर काम कर रहे हैं।

समस्या गूगल के दृष्टिकोण से उत्पन्न होती है।

Veo 3 द्वारा स्वचालित रूप से सबटाइटल डालने का कारण उस डेटा से जुड़ा है जिस पर मॉडल को प्रशिक्षित किया गया था।

हालांकि Google ने अपने मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली डेटा श्रेणियों का विवरण जारी नहीं किया है, लेकिन इसमें संभवतः YouTube और TikTok जैसे प्लेटफॉर्म के वीडियो शामिल हैं, जिनमें से कई में सबटाइटल होते हैं। क्लार्क यूनिवर्सिटी (मैसाचुसेट्स, अमेरिका) में वीडियो शेयरिंग प्लेटफॉर्म और AI के शोधकर्ता शुओ निउ के अनुसार, ये सबटाइटल सीधे वीडियो फ्रेम में एम्बेडेड होते हैं, जिससे प्रशिक्षण डेटा के रूप में उपयोग किए जाने से पहले इन्हें हटाना मुश्किल हो जाता है।

उन्होंने समझाया, "टेक्स्ट-टू-वीडियो मॉडल को रीइन्फोर्समेंट लर्निंग का उपयोग करके प्रशिक्षित किया जाता है ताकि ऐसी सामग्री बनाई जा सके जो मानव निर्मित वीडियो की नकल करती हो, और यदि उन वीडियो में उपशीर्षक हैं, तो मॉडल 'सीख' सकता है कि उपशीर्षक जोड़ने से उत्पाद मानव निर्मित वीडियो जैसा अधिक दिखता है।"

video AI anh 3

Veo 3 यूट्यूब और टिकटॉक वीडियो से प्राप्त मॉडल प्रशिक्षण डेटा से प्रभावित हुआ था। चित्र: मैशेबल

गूगल के एक प्रवक्ता ने कहा: “हम वीडियो बनाने की अपनी क्षमताओं को लगातार बेहतर बना रहे हैं, खासकर टेक्स्ट, स्वाभाविक लगने वाली आवाज़ और पूरी तरह से सिंक्रनाइज़्ड ऑडियो के मामले में। हम उपयोगकर्ताओं को प्रोत्साहित करते हैं कि यदि उन्हें परिणाम असंगत लगते हैं तो वे कमांड को दोबारा आज़माएं और लाइक या डिसलाइक फ़ीचर के माध्यम से हमें फ़ीडबैक दें।”

इसके अलावा, स्टोनी ब्रुक विश्वविद्यालय में एआई सिस्टम के शोधकर्ता तुहिन चक्रबर्ती के अनुसार, यह मॉडल "कोई उपशीर्षक नहीं" जैसे संकेतों को इसलिए अनदेखा करता है क्योंकि नकारात्मक कथन (एआई को कुछ न करने का निर्देश देना) आम तौर पर सकारात्मक संकेतों की तुलना में कम प्रभावी होते हैं।

इस समस्या को पूरी तरह से हल करने के लिए, Google को Veo 3 को प्रशिक्षित करने के लिए उपयोग किए गए सभी वीडियो के हर फ्रेम की जांच करनी होगी, फिर मॉडल को दोबारा प्रशिक्षित करने से पहले उपशीर्षक वाले वीडियो को हटाना या पुनः लेबल करना होगा। चक्रबर्ती ने आगे कहा कि इसमें कई सप्ताह लगेंगे।

एमआईटी ओपन डॉक्यूमेंट्री लैब में डॉक्यूमेंट्री फिल्म निर्माता और कला निर्देशक कैटेरीना सिज़ेक का तर्क है कि यह मुद्दा गूगल की उन उत्पादों को जारी करने की इच्छा को दर्शाता है जो अभी पूरी तरह से तैयार नहीं हैं।

सिज़ेक ने कहा, "गूगल को एक बड़ी सफलता चाहिए। उन्हें ऐसा टूल जारी करने वाला पहला बनना होगा जो होंठों की हलचल से मेल खाने वाली ऑडियो बना सके। और यह सबटाइटल की समस्या को ठीक करने से कहीं ज्यादा महत्वपूर्ण है।"

स्रोत: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


टिप्पणी (0)

अपनी भावनाएँ साझा करने के लिए कृपया एक टिप्पणी करें!

उसी श्रेणी में

उसी लेखक की

विरासत

आकृति

व्यवसायों

सामयिकी

राजनीतिक प्रणाली

स्थानीय

उत्पाद

Happy Vietnam
आराम करना

आराम करना

पु लुओंग का हरा रंग

पु लुओंग का हरा रंग

फिनिश लाइन

फिनिश लाइन