सोरा जैसे टेक्स्ट-टू-वीडियो AI

[विज्ञापन_1]

सोरा (ओपनएआई)

सोरा घोषित किया जाने वाला सबसे नया नाम है, लेकिन इसने सबसे अधिक हलचल मचाई है, आंशिक रूप से इसलिए क्योंकि यह ओपनएआई का उत्पाद है - जो चैटजीपीटी का प्रसिद्ध डेवलपर है, लेकिन मुख्य रूप से इसलिए क्योंकि यह प्रोग्राम केवल टेक्स्ट कमांड से वीडियो की गुणवत्ता बनाता है।

चैटजीपीटी के साथ कंपनी की सफलता इसके एआई को भाषा की गहरी समझ भी देती है। सोरा की क्षमताओं को दर्शाने वाले क्लिप में पात्रों को चलते और खुद को इस तरह अभिव्यक्त करते हुए दिखाया गया है जो बिल्कुल मानव-निर्मित फिल्म जैसा जीवंत लगता है।

Video "siêu thực" do Sora tạo từ các lệnh văn bản — सोरा द्वारा टेक्स्ट कमांड से बनाया गया "अतियथार्थवादी" वीडियो

लेकिन सुरक्षा कारणों से सोरा अभी सार्वजनिक उपयोग के लिए उपलब्ध नहीं है। ओपनएआई इसे आम जनता के लिए उपलब्ध कराने से पहले सावधानीपूर्वक कदम उठाएगा, खासकर उन एआई उपयोगकर्ताओं की बढ़ती संख्या को देखते हुए जिनका इस्तेमाल नापाक उद्देश्यों के लिए किया जा रहा है, जैसे कि नकली उपयोगकर्ता बनना या अपराध करना।

लुमियर (गूगल)

लुमियर, गूगल का एक उत्पाद है, जो STUNet (स्पेस-टाइम-यू-नेट) संरचना प्रसार मॉडल पर आधारित, टेक्स्ट इनपुट से वीडियो बनाने में भी सक्षम है। लुमियर स्थिर फ़्रेमों को एक साथ जोड़ने की ज़हमत नहीं उठाता, बल्कि यह AI वीडियो में मौजूद विवरणों (स्थानिक भाग) की पहचान करता है, ट्रैक करता है कि वे कैसे गति करते हैं, एक ही समय में कैसे बदलते हैं (अस्थायी भाग), जिससे प्रक्रिया सुचारू रूप से चलने में मदद मिलती है।

सोरा की तरह, लुमियर को भी अभी तक सार्वजनिक रूप से जारी नहीं किया गया है। कंपनी ने इस मॉडल को जनवरी 2024 के अंत में जेमिनी के लॉन्च के बाद ही पेश किया था - एक बड़ा भाषा मॉडल जिसे हाल ही में बार्ड के साथ सिंक्रोनाइज़ किया गया है।

वीडियोपोएट (गूगल)

यह बड़ा भाषा मॉडल (एलएलएम) 2023 में Google खोज द्वारा विकसित वीडियो, फोटो, ऑडियो और पाठ के विशाल भंडार से प्रशिक्षित है। VideoPoet इनपुट स्रोतों जैसे पाठ, फोटो, वीडियो से विभिन्न कार्य कर सकता है... वीडियो बनाने, सामग्री को हाइलाइट करने, वीडियो को ऑडियो में बदलने, स्थिर छवियों को एनिमेशन में बदलने के लिए...

वीडियोपोएट का मूल विचार किसी भी ऑटोरिग्रैसिव भाषा मॉडल को वीडियो जनरेशन सिस्टम में अनुवाद करने की आवश्यकता से उपजा था। वर्तमान ऑटोरिग्रैसिव भाषा मॉडल मनुष्यों की तरह टेक्स्ट और प्रोग्रामिंग कोड को प्रोसेस कर सकते हैं, लेकिन वीडियो के मामले में संघर्ष करते हैं। वीडियोपोएट किसी भी फॉर्मेट से इनपुट को समझने योग्य भाषा में अनुवाद करने के लिए टोकनाइज़ेशन का उपयोग करके इस समस्या का समाधान करता है।

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — टेक्स्ट से वीडियो बनाने वाले उपकरण अधिकतर अपनी सीमाओं का परीक्षण कर रहे हैं

एमु वीडियो (मेटा)

गूगल और ओपनएआई के अलावा, मेटा भी उन बड़ी टेक कंपनियों में से एक है जो एआई बनाने में सक्रिय हैं। फेसबुक की मालिक कंपनी मेटा ने एमु वीडियो नामक एक वीडियो बनाने वाली एआई भी विकसित की है, जो तस्वीरों को टेक्स्ट में बदलकर क्लिप बनाने के लिए डेटा के रूप में इस्तेमाल कर सकती है।

एमू वीडियो को बीटा परीक्षकों से सकारात्मक समीक्षाएं मिल रही हैं, 81% ने इसे इमेजन वीडियो (गूगल) से ज़्यादा पसंद किया है। 90% से ज़्यादा लोगों ने मेटा के मॉडल को प्योको (एनवीडिया) से ज़्यादा पसंद किया, जो मेटा के मेक-ए-वीडियो (96%) से भी बेहतर है।

कॉगवीडियो (सिंघुआ विश्वविद्यालय, चीन)

ऊपर दिए गए मॉडलों के विपरीत, जो दुनिया की अग्रणी प्रौद्योगिकी कंपनियों के उत्पाद हैं, कॉगवीडियो एक एआई है जिसे चीन और एशिया के एक शीर्ष प्रतिष्ठित विश्वविद्यालय, त्सिंगुआ विश्वविद्यालय की एक शोध टीम द्वारा विकसित किया गया है। यह प्रोग्राम कॉगव्यू2 पर आधारित है, जो एक पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज मॉडल है।

कॉगवीडियो का परीक्षण करने वाले कंप्यूटर कला विशेषज्ञ ग्लेन मार्शल ने कहा, "निर्देशकों की नौकरी जा सकती है।" कॉगवीडियो की मदद से बनाई गई उनकी क्लिप, जिसका नाम "द क्रो" है, को काफ़ी प्रशंसा मिली और इसे ब्रिटिश अकादमी फ़िल्म पुरस्कार (बाफ्टा) के लिए नामांकित किया गया।

[विज्ञापन_2]
स्रोत लिंक