सोरा (ओपनएआई)
सोरा घोषित किया जाने वाला सबसे नया नाम है, लेकिन इसने सबसे अधिक हलचल मचाई है, आंशिक रूप से इसलिए क्योंकि यह ओपनएआई का उत्पाद है - जो चैटजीपीटी का प्रसिद्ध डेवलपर है, लेकिन मुख्य रूप से इसलिए क्योंकि यह प्रोग्राम केवल टेक्स्ट कमांड से वीडियो की गुणवत्ता बनाता है।
चैटजीपीटी के साथ कंपनी की सफलता इसके एआई को भाषा की गहरी समझ भी देती है। सोरा की क्षमताओं को दर्शाने वाले क्लिप में पात्रों को चलते और खुद को इस तरह अभिव्यक्त करते हुए दिखाया गया है जो बिल्कुल मानव-निर्मित फिल्म जैसा जीवंत लगता है।
सोरा द्वारा टेक्स्ट कमांड से बनाया गया "अतियथार्थवादी" वीडियो
लेकिन सुरक्षा कारणों से सोरा अभी सार्वजनिक उपयोग के लिए उपलब्ध नहीं है। ओपनएआई इसे आम जनता के लिए उपलब्ध कराने से पहले सावधानीपूर्वक कदम उठाएगा, खासकर उन एआई उपयोगकर्ताओं की बढ़ती संख्या को देखते हुए जिनका इस्तेमाल नापाक उद्देश्यों के लिए किया जा रहा है, जैसे कि नकली उपयोगकर्ता बनना या अपराध करना।
लुमियर (गूगल)
लुमियर, गूगल का एक उत्पाद है, जो STUNet (स्पेस-टाइम-यू-नेट) संरचना प्रसार मॉडल पर आधारित, टेक्स्ट इनपुट से वीडियो बनाने में भी सक्षम है। लुमियर स्थिर फ़्रेमों को एक साथ जोड़ने की ज़हमत नहीं उठाता, बल्कि यह AI वीडियो में मौजूद विवरणों (स्थानिक भाग) की पहचान करता है, ट्रैक करता है कि वे कैसे गति करते हैं, एक ही समय में कैसे बदलते हैं (अस्थायी भाग), जिससे प्रक्रिया सुचारू रूप से चलने में मदद मिलती है।
सोरा की तरह, लुमियर को भी अभी तक सार्वजनिक रूप से जारी नहीं किया गया है। कंपनी ने इस मॉडल को जनवरी 2024 के अंत में जेमिनी के लॉन्च के बाद ही पेश किया था - एक बड़ा भाषा मॉडल जिसे हाल ही में बार्ड के साथ सिंक्रोनाइज़ किया गया है।
वीडियोपोएट (गूगल)
यह बड़ा भाषा मॉडल (एलएलएम) 2023 में Google खोज द्वारा विकसित वीडियो, फोटो, ऑडियो और पाठ के विशाल भंडार से प्रशिक्षित है। VideoPoet इनपुट स्रोतों जैसे पाठ, फोटो, वीडियो से विभिन्न कार्य कर सकता है... वीडियो बनाने, सामग्री को हाइलाइट करने, वीडियो को ऑडियो में बदलने, स्थिर छवियों को एनिमेशन में बदलने के लिए...
वीडियोपोएट का मूल विचार किसी भी ऑटोरिग्रैसिव भाषा मॉडल को वीडियो जनरेशन सिस्टम में अनुवाद करने की आवश्यकता से उपजा था। वर्तमान ऑटोरिग्रैसिव भाषा मॉडल मनुष्यों की तरह टेक्स्ट और प्रोग्रामिंग कोड को प्रोसेस कर सकते हैं, लेकिन वीडियो के मामले में संघर्ष करते हैं। वीडियोपोएट किसी भी फॉर्मेट से इनपुट को समझने योग्य भाषा में अनुवाद करने के लिए टोकनाइज़ेशन का उपयोग करके इस समस्या का समाधान करता है।
टेक्स्ट से वीडियो बनाने वाले उपकरण अधिकतर अपनी सीमाओं का परीक्षण कर रहे हैं
एमु वीडियो (मेटा)
गूगल और ओपनएआई के अलावा, मेटा भी उन बड़ी टेक कंपनियों में से एक है जो एआई बनाने में सक्रिय हैं। फेसबुक की मालिक कंपनी मेटा ने एमु वीडियो नामक एक वीडियो बनाने वाली एआई भी विकसित की है, जो तस्वीरों को टेक्स्ट में बदलकर क्लिप बनाने के लिए डेटा के रूप में इस्तेमाल कर सकती है।
एमू वीडियो को बीटा परीक्षकों से सकारात्मक समीक्षाएं मिल रही हैं, 81% ने इसे इमेजन वीडियो (गूगल) से ज़्यादा पसंद किया है। 90% से ज़्यादा लोगों ने मेटा के मॉडल को प्योको (एनवीडिया) से ज़्यादा पसंद किया, जो मेटा के मेक-ए-वीडियो (96%) से भी बेहतर है।
कॉगवीडियो (सिंघुआ विश्वविद्यालय, चीन)
ऊपर दिए गए मॉडलों के विपरीत, जो दुनिया की अग्रणी प्रौद्योगिकी कंपनियों के उत्पाद हैं, कॉगवीडियो एक एआई है जिसे चीन और एशिया के एक शीर्ष प्रतिष्ठित विश्वविद्यालय, त्सिंगुआ विश्वविद्यालय की एक शोध टीम द्वारा विकसित किया गया है। यह प्रोग्राम कॉगव्यू2 पर आधारित है, जो एक पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज मॉडल है।
कॉगवीडियो का परीक्षण करने वाले कंप्यूटर कला विशेषज्ञ ग्लेन मार्शल ने कहा, "निर्देशकों की नौकरी जा सकती है।" कॉगवीडियो की मदद से बनाई गई उनकी क्लिप, जिसका नाम "द क्रो" है, को काफ़ी प्रशंसा मिली और इसे ब्रिटिश अकादमी फ़िल्म पुरस्कार (बाफ्टा) के लिए नामांकित किया गया।
[विज्ञापन_2]
स्रोत लिंक






टिप्पणी (0)