इस उत्पाद ने वियतनामी विज्ञान एवं प्रौद्योगिकी समुदाय में शीघ्र ही हलचल मचा दी।

वियतनामी समस्या को हल करने के लिए कठिन रास्ता चुनें

2022 के अंत में, चैटजीपीटी ने एक "बड़ा धमाका" किया, जिससे तकनीकी क्षेत्र के देशों और दिग्गजों के बीच कृत्रिम एआई पर विजय पाने की होड़ शुरू हो गई। उस समय, वियतनामी तकनीकी समुदाय भी वियतनामी उत्पादों को विकसित करने के लिए उत्सुक था ताकि तकनीकी रूप से आत्मनिर्भर बन सके और अंतरराष्ट्रीय उत्पादों पर निर्भरता कम हो सके। हालाँकि, हर इकाई में विनबिगडाटा जैसी उस इच्छा को साकार करने की क्षमता और दृढ़ संकल्प नहीं होता।

"जनरेटिव एआई एक कठिन समस्या है। ओपनएआई या गूगल जैसी बड़ी कंपनियों को भी हमारे जैसे उत्पाद बनाने के लिए अनुसंधान में बहुत सारे संसाधन और समय लगाना पड़ता है। ये उत्पाद बहुत अच्छे हैं, लेकिन वास्तव में, वैज्ञानिक अभी भी इसके संचालन तंत्र को पूरी तरह से नहीं समझ पाए हैं। इसमें कब त्रुटियाँ होंगी और क्या त्रुटियाँ होंगी, इसका अनुमान लगाना मुश्किल है। वियतनामी लोगों के लिए एक साल से भी कम समय में चैटजीपीटी जैसा उत्पाद विकसित करना कई चुनौतियों का सामना करता है। लेकिन हमने "जोखिम" उठाना चुना क्योंकि अगर चैटजीपीटी का वियतनामी संस्करण वियतनामी लोगों द्वारा नहीं बनाया जाएगा, तो इसे कौन बनाएगा?" - विनबिगडाटा के विज्ञान निदेशक प्रोफ़ेसर वु हा वान ने साझा किया।

वास्तव में, बहुत कम कंपनियाँ अपने स्वयं के बड़े भाषा मॉडल को शुरू से ही बनाना पसंद करती हैं। उदाहरण के लिए, OpenAI के GPT 3 में 175 बिलियन पैरामीटर हैं और इसे 45 टेराबाइट डेटासेट पर प्रशिक्षित किया गया था और इसकी लागत $4.6 मिलियन थी। गणना के अनुसार, GPT 4 को विकसित करने में लगने वाली राशि $100 मिलियन तक भी पहुँच सकती है। VinBigdata के उत्पाद निदेशक डॉ. गुयेन किम आन्ह ने कहा, "इतनी बड़ी संख्या को देखते हुए, ऐसी कंपनी ढूँढना बहुत मुश्किल है जो इस तकनीक में निवेश कर सके।"

फोटो 1.jpg

वियतनामी व्यवसायों को इष्टतम लागत और बुनियादी ढाँचे के साथ नई पीढ़ी की एआई तकनीक तक पहुँच प्रदान करने के लिए, विनबिगडेटा ने एक बिल्कुल अलग दिशा चुनी, यानी केवल 1.6 अरब मापदंडों वाला एक भाषा मॉडल तैयार करना, लेकिन अरबों मापदंडों वाले बड़े भाषा मॉडल के बराबर क्षमताएँ। डॉ. गुयेन किम अन्ह ने आगे कहा, "परिणाम बताते हैं कि विनबिगडेटा द्वारा स्वयं विकसित आर्किटेक्चर के साथ, भाषा मॉडल प्रशिक्षण प्रक्रिया को अनुकूलित और तेज़ करना, बुनियादी ढाँचे की लागत (प्रशिक्षण लागत और उपयोग लागत सहित) को कम करना पूरी तरह से संभव है, लेकिन फिर भी मॉडल की गुणवत्ता सुनिश्चित करना संभव है।"

बड़े भाषा मॉडल आकार की समस्या को हल करने के बाद, ViGPT की "कल्पना" की प्रक्रिया के दौरान, विदेशी मॉडलों पर शोध करने के बाद, VinBigdata टीम को एक और चुनौती का भी एहसास हुआ जो कि "भ्रम" है, जो सांख्यिकीय संभाव्यता मॉडल की अंतर्निहित प्रकृति से आता है।

तदनुसार, दुनिया के सबसे बड़े भाषा मॉडल अक्सर अंग्रेजी डेटा स्रोतों से प्रशिक्षित होते हैं। इसलिए, यह मॉडल वियतनामी लोगों के संदर्भ और संस्कृति को ठीक से समझ नहीं पाता और न ही उस पर सही ढंग से प्रतिक्रिया दे पाता है। इससे भ्रम की स्थिति पैदा होती है जिसके कारण बड़े भाषा मॉडल गलत उत्तर "गढ़" लेते हैं।

फोटो 3.jpg

कम से कम समय में इष्टतम समाधान खोजने के लिए, विनबिगडाटा की प्राकृतिक भाषा प्रसंस्करण (एनएलपी) टीम को छोटे समूहों में विभाजित किया गया है, जो सबसे उपयुक्त अंतिम दिशा खोजने के लिए विभिन्न विचारों का विश्लेषण और चर्चा करते हैं।

डॉ. गुयेन किम आन्ह ने कहा, "अंत में, हमने वर्तमान के अधिकांश बड़े भाषा मॉडलों से अलग एक आर्किटेक्चर विकसित करने का निर्णय लिया, और 600 जीबी के परिष्कृत वियतनामी डेटा सेट पर प्रशिक्षण आयोजित किया, ताकि एक "बुद्धिमान आभासी सहायक" बनाया जा सके जो वियतनामी लोगों के संदर्भ के अनुसार समझ सके और उत्तर दे सके।"

वियतनामी प्रौद्योगिकी पारिस्थितिकी तंत्र की आकांक्षा

वियतनामी भाषा प्रवीणता मूल्यांकन मानकों (VMLU) के मूल्यांकन परिणामों के अनुसार, ViGPT ने 42.24% का औसत स्कोर हासिल किया, जो ChatGPT (48.54%) के बाद दूसरे स्थान पर है। यह परिणाम ViGPT को वियतनाम के विशिष्ट विषयों के बारे में जानकारी तेज़ी से खोजने और प्रश्नों के उत्तर देने में सक्षम बनाता है।

वर्चुअल असिस्टेंट की क्षमताओं के अलावा, विकास टीम की इच्छा वियतनामी लोगों के जीवन में बदलाव लाने के लिए ViGPT को परिचित, रोज़मर्रा के इस्तेमाल वाले उत्पादों में एकीकृत करने की है। यही वह प्रेरक शक्ति है जो VinBigdata टीम को ViGPT लागू करने वाले भाषा और वॉइस उत्पादों का एक ऐसा इकोसिस्टम बनाने के लिए प्रेरित करती है - "Vi" इकोसिस्टम में शामिल हैं: ViChat, ViVoice, ViVi वर्चुअल असिस्टेंट। इन उत्पादों का इस्तेमाल ऑटोमोटिव उद्योग, बैंकिंग-वित्त, बीमा से लेकर परिवहन और कई अन्य क्षेत्रों में किया जा सकता है।

"तकनीक, खासकर एआई के साथ काम करते समय, हम सिर्फ़ दिलचस्प, जटिल और मुश्किल से दिखाई देने वाली प्रणालियों पर ही विजय प्राप्त नहीं करना चाहते। हम ठोस, अत्यधिक उपयोगी उत्पाद बनाना चाहते हैं, जहाँ एआई जीवन में बदलाव लाने वाला प्रत्यक्ष माध्यम हो," विनबिगडाटा के उत्पाद निदेशक ने पुष्टि की।

फोटो 4.jpg

इसलिए, ViGPT का सफल विकास लाखों वियतनामी लोगों के जीवन में "विशुद्ध रूप से वियतनामी" तकनीक और डेटा लाने की दिशा में पहला कदम मात्र है। VinBigdata के एक प्रतिनिधि ने कहा कि इस इकाई का उद्देश्य ViGPT को VinBase 2.0 बहु-संज्ञानात्मक कृत्रिम बुद्धिमत्ता प्लेटफ़ॉर्म में एकीकृत करना है, ताकि विभिन्न आकार और उद्योगों के संगठनों और व्यवसायों के लिए उत्कृष्ट समाधान प्रदान किए जा सकें।

ViGPT से पहले, भाषा और भाषण प्रसंस्करण प्रौद्योगिकी के क्षेत्र में विशेषज्ञों और इंजीनियरों की टीम VinBigdata ने ViVi को लॉन्च करके अपनी पहचान बनाई - पहला व्यापक वियतनामी आभासी सहायक ( VinFast इलेक्ट्रिक कारों, Vinhomes निवासी अनुप्रयोगों और Vinhomes ऑनलाइन ई-कॉमर्स प्लेटफॉर्म पर लागू और तैनात), एक ही समय में, दुनिया में सबसे उन्नत प्रौद्योगिकियों जैसे वॉयस बायोमेट्रिक्स या वॉयस क्लोनिंग में पूरी तरह से महारत हासिल की।

ये सभी तकनीकें 3,500 टेराबाइट के डेटाबेस के आधार पर विकसित की गई हैं, जो मुख्य रूप से वियतनामी-विशिष्ट डेटा पर केंद्रित हैं, जिसे VinBigdata द्वारा एकत्रित, विश्लेषित और परिष्कृत किया गया है। अंतिम लक्ष्य वियतनामी डेटा और ज्ञान प्रणालियों का उपयोग करके विश्व प्रौद्योगिकी को वियतनामी जीवन में लाना है।

ViGPT, VinBigdata द्वारा विकसित वियतनामी वृहद भाषा मॉडल (LLM) पर आधारित, अंतिम उपयोगकर्ताओं के लिए ChatGPT का पहला "वियतनामी संस्करण" है। ViGPT में उत्कृष्ट विशेषताएँ हैं और इसे वियतनामी लोगों की ज़रूरतों, जैसे सामग्री निर्माण, सूचना खोज, और वियतनामी विशेषताओं वाले सामान्य प्रश्नों के उत्तर, के लिए सर्वोत्तम रूप से डिज़ाइन किया गया है। ViGPT का पंजीकरण करें और अनुभव करें: vigpt.vinbigdata.com

थान हा