डॉ. दाओ डुक मिन्ह: 'वियतनामी डेटा पर महारत हासिल करना वियतनामी प्रौद्योगिकी के विकास और उसमें महारत हासिल करने की दिशा में पहला कदम है'
Báo Thanh niên•27/05/2024
अमेरिका में एक बड़े आर्टिफिशियल इंटेलिजेंस संगठन के लिए काम करने के बाद, आपने विनबिगडाटा में शामिल होने के लिए वियतनाम लौटने का फैसला क्यों किया? अमेरिका में काम करते हुए, हालाँकि मैंने कई बड़ी सरकारी परियोजनाओं में भाग लिया, लेकिन मैंने जो परिणाम हासिल किए, वे अक्सर एक बड़ी प्रसंस्करण प्रक्रिया के कुछ ही चरण होते थे। कई बार, परियोजनाओं की बहुत सख्त गोपनीयता प्रक्रियाओं के कारण, मुझे यह भी पता नहीं होता था कि मेरे द्वारा विकसित किए गए समाधानों का उपयोग कैसे किया जा रहा है। 2017 में, मैं वियतनाम लौट आया जब वियतनाम विकास के चरण में था और बड़े डेटा और आर्टिफिशियल इंटेलिजेंस से संबंधित कई समस्याएं थीं जिन्हें हल करने की आवश्यकता थी। मैंने वियतनामी लोगों के जीवन की सेवा के लिए वियतनामी प्रौद्योगिकी समाधान विकसित करने के लक्ष्य को संयुक्त रूप से साकार करने के लिए प्रोफेसर वु हा वान के निमंत्रण को स्वीकार कर लिया। मुझे वियतनाम में अपनी वापसी अधिक सार्थक लगती है क्योंकि मैं अधिक प्रभाव वाली समस्याओं पर काम कर पाऊंगा।
डॉ. दाओ डुक मिन्ह एक कार्यशाला में
एनवीसीसी
सर, कृत्रिम बुद्धिमत्ता के विकास की रणनीति में बड़े डेटा की क्या भूमिका और प्रभाव है? कृत्रिम बुद्धिमत्ता के प्रशिक्षण में डेटा बहुत महत्वपूर्ण और मूल्यवान भूमिका निभाता है। उच्च-गुणवत्ता वाले कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए, हम अक्सर एक बड़े डेटाबेस को प्रशिक्षित करके शुरुआत करते हैं। इसलिए, उच्च-गुणवत्ता वाली कृत्रिम बुद्धिमत्ता के लिए, हमें सबसे पहले अच्छे डेटा की आवश्यकता होती है। अच्छे डेटा को मात्रा और पैमाने, गुणवत्ता, विविधता और सार्वभौमिकता के मानकों को पूरा करना होता है। कृत्रिम बुद्धिमत्ता मॉडल में फीड करने के लिए उच्चतम गुणवत्ता वाला डेटा बनाने के लिए कच्चे डेटा की सफाई के चरण से हजारों घंटे डेटा एकत्र करने और संसाधित करने की प्रक्रिया बहुत महंगी और जटिल है। इसके विपरीत, बड़े डेटा का विश्लेषण करने के लिए, हमें बड़े पैमाने पर डेटा को सटीक रूप से संसाधित करने की क्षमता सुनिश्चित करने के लिए कृत्रिम बुद्धिमत्ता का उपयोग करने की आवश्यकता है, जिससे अधिक निर्णायक या भविष्य कहनेवाला परिणाम प्राप्त हो सके। उदाहरण के लिए, वियतनामी लोगों (ViVi) के लिए एक वर्चुअल असिस्टेंट उत्पाद विकसित करने की प्रक्रिया में, हमें विभिन्न क्षेत्रों, विभिन्न आयु और लिंगों की लाखों आवाज़ों से, सैकड़ों क्षेत्रों में फैली सामग्री के साथ, उच्च-गुणवत्ता वाले ऑडियो डेटा के दसियों हज़ार घंटे एकत्र और संसाधित करने पड़े... या हाल ही में, ViGPT का लॉन्च - "अंतिम उपयोगकर्ताओं के लिए ChatGPT का पहला वियतनामी संस्करण" VinBigdata के पूर्ण स्वामित्व वाले एक बिग लैंग्वेज मॉडल से विकसित किया गया। इस मॉडल को कई अलग-अलग क्षेत्रों से 600 जीबी परिष्कृत वियतनामी डेटा के आधार पर प्रशिक्षित किया गया था। वियतनामी डेटा और भाषा की हमारी समझ के साथ, हमने ChatGPT के जन्म के बाद ViGPT के लॉन्च समय को केवल 9 महीने तक कम करने का एक नया तरीका खोजा। यह बड़े डेटा और कृत्रिम बुद्धिमत्ता के बीच अनुनाद है।
समुदाय की सेवा के लिए अनुसंधान को व्यावहारिक मूल्य से जोड़ने के बारे में आपका क्या विचार है? - मेरा मानना है कि तकनीकी अनुसंधान तभी सफल होता है जब वह वास्तव में जीवन में प्रवेश करे, सामाजिक समस्याओं का समाधान करे और लोगों के जीवन को बेहतर बनाए। व्यावहारिक व्यावसायिक उत्पाद बनाने और व्यावसायिक व सामाजिक समस्याओं का समाधान करने के लिए, हमें हमेशा ध्यान देना चाहिए और यह प्रश्न पूछना चाहिए: डेटा जीवन में क्या मूल्य लाएगा? अब तक, हमने विभिन्न उद्योगों और क्षेत्रों में विभिन्न प्रकार के उत्पादों और समाधानों पर शोध किया है, विशेष रूप से ViGPT, VinDr - जो चिकित्सा इमेजिंग निदान में AI समाधान प्रदान करता है, VinBase - जो कृत्रिम बुद्धिमत्ता के लिए एक प्लेटफ़ॉर्म है, या Vizone - जो स्मार्ट इमेज विश्लेषण समाधानों का एक समूह है।
विन्ग्रुप कॉर्पोरेशन के एक कार्यक्रम में विन्बिगडाटा के प्रमुख कर्मचारियों के साथ
एनवीसीसी
चौथी औद्योगिक क्रांति वैश्विक स्तर पर जोरदार तरीके से हो रही है। आपको क्या लगता है कि वियतनाम के क्या फायदे हैं? पिछली क्रांतियों की तुलना में, मुझे लगता है कि वियतनाम के पास इस चौथी औद्योगिक क्रांति में आगे बढ़ने के लिए कई फायदे हैं, जिससे विश्व मानचित्र पर देश की स्थिति में सुधार होगा। इस लक्ष्य को प्राप्त करने की दो कुंजियाँ हैं डेटा और लोग। वियतनाम में वर्तमान में लगभग 10 करोड़ लोग हैं, जिनमें से युवाओं का एक बड़ा हिस्सा फोन और पर्सनल कंप्यूटर का उपयोग करता है। इसके अलावा, हमारे पास कृत्रिम बुद्धिमत्ता के प्रतिष्ठित विशेषज्ञ और सूचना प्रौद्योगिकी में युवा, उच्च-गुणवत्ता वाले कर्मचारी हैं और गणित में हमारी पकड़ बहुत अच्छी है। तो सीमाओं के बारे में क्या? पहली सीमा जो देखी जा सकती है वह यह है कि बड़ी आबादी होने के बावजूद, हमें अभी भी डेटा में महारत हासिल करने में कठिनाई हो रही है, विशेष रूप से सुविधाओं, व्यावसायिक इकाइयों और प्रशासनों में डेटा को मानकीकृत और सिंक्रनाइज़ करने में। इसके अलावा, हमें सीमित निवेश संसाधनों, विशेष रूप से उच्च-प्रदर्शन कंप्यूटिंग बुनियादी ढांचे में निवेश जैसी अन्य बाधाओं का भी सामना करना पड़ रहा है।
आपकी राय में, वियतनामी लोगों के जीवन की सेवा करने के लिए प्रौद्योगिकी बनाने और उसमें महारत हासिल करने की यात्रा में वियतनामी डेटा में महारत हासिल करना कितना महत्वपूर्ण है? वर्तमान में, दुनिया भर में कई प्रमुख कृत्रिम बुद्धिमत्ता उत्पाद हैं, आमतौर पर बड़े भाषा मॉडल जैसे कि OpenAI द्वारा ChatGPT या Google द्वारा Bard के आधार पर बनाए गए AI एप्लिकेशन उत्पाद। हालाँकि, वियतनामी इन उत्पादों के विकास के लिए मुख्य भाषा समूह नहीं है। इसलिए, उपयोगकर्ताओं को लौटाई गई वियतनामी-विशिष्ट सामग्री की गुणवत्ता कमोबेश प्रभावित होती है और इसमें त्रुटियों की उच्च संभावना होती है, अधिक खतरनाक रूप से, बुनियादी ज्ञान में त्रुटियां। वियतनामी लोगों के रूप में, हमारे पास अपने स्वयं के डेटा स्रोतों तक पहुँचने का लाभ है। केवल हमारे पास वियतनामी डेटा की विशेषताओं, वियतनामी लोगों की जरूरतों और विशेषताओं को समझने की क्षमता है। इसलिए, वियतनामी डेटा में महारत हासिल करना वास्तव में मुख्य तकनीकों में महारत हासिल करने की कुंजी है
VinBigdata सदस्यों के लिए आंतरिक प्रशिक्षण
एनवीसीसी
विशिष्ट डेटा स्रोतों तक कैसे पहुँचें, खासकर जब आज ज़्यादातर वियतनामी लोग विदेशों से सोशल नेटवर्किंग साइट्स का इस्तेमाल करते हैं? दरअसल, आज मानव डेटा का सबसे बड़ा स्रोत (सिर्फ़ वियतनामी लोग ही नहीं) इंटरनेट और सोशल नेटवर्क पर है। हालाँकि, हम वियतनामी डेटा की विशेषताओं की समझ के आधार पर, प्रत्येक परियोजना द्वारा निर्धारित विशेषताओं के आधार पर, विभिन्न स्रोतों से डेटा तक पहुँच और संग्रह कर सकते हैं। उदाहरण के लिए, OpenAI के GPT मॉडल में सैकड़ों, यहाँ तक कि खरबों पैरामीटर होते हैं, जिन्हें भारी मात्रा में डेटा पर प्रशिक्षित किया जाता है और अरबों डॉलर खर्च होते हैं। उनकी तुलना में, हमने अपने शोध, क्षमताओं और संसाधनों के आधार पर एक बिल्कुल अलग दिशा चुनी है: यानी, केवल कुछ अरब पैरामीटरों की वास्तुकला वाला एक वियतनामी भाषा मॉडल बनाना, जिसे 600 जीबी वियतनामी डेटा के सेट पर प्रशिक्षित किया गया है जिसे हमने स्वयं एकत्रित और परिष्कृत किया है, लेकिन जिसमें वियतनामी भाषा को संसाधित करने की समान क्षमता है। परिणाम बताते हैं कि हमारा स्व-विकसित आर्किटेक्चर स्व-अनुकूलन कर सकता है, भाषा मॉडल के प्रशिक्षण समय को कम कर सकता है, लागत कम कर सकता है और साथ ही मॉडल की गुणवत्ता सुनिश्चित कर सकता है। कृत्रिम बुद्धिमत्ता उत्पादों पर शोध और विकास की प्रक्रिया में आपको और आपकी टीम को किन चुनौतियों का सामना करना पड़ा है? पहली चुनौती निश्चित रूप से समय है। कृत्रिम बुद्धिमत्ता तकनीक की लहर बहुत तेज़ी से आ रही है और विस्फोट के दौर में है। दुनिया भर की अग्रणी तकनीकी कंपनियों ने तेज़ी से उच्च-स्तरीय उत्पाद लॉन्च किए हैं जिन्हें लगातार अद्यतन और बेहतर बनाया जा रहा है। अगर हम धीमे रहे और समय पर उत्पाद लॉन्च नहीं किए, तो हम निश्चित रूप से पिछड़ जाएँगे। दूसरी ओर, अगर हम ऐसे उत्पाद बनाना चाहते हैं जिन्हें लागू किया जा सके और जो व्यावहारिक सामाजिक समस्याओं का समाधान कर सकें, तो हमें उत्पाद की उत्कृष्ट, विशिष्ट और अनूठी विशेषताओं को खोजने और विकसित करने पर भी विचार करना चाहिए।
वियतनाम आर्टिफिशियल इंटेलिजेंस दिवस (AI4VN 2023) पर प्रस्तुति
एनवीसीसी
वास्तव में, वियतनाम और दुनिया भर में कई व्यक्तियों और संगठनों को डेटा लीक के कारण भारी नुकसान हुआ है। आप डेटा सुरक्षा के मुद्दे को कैसे देखते हैं? यह कहा जा सकता है कि आज कोई भी अनुप्रयोग डेटा से ही आता है। डेटा के साथ काम करते समय, एक ओर, हमें जीवन के लिए सर्वोत्तम तकनीक बनाने के लिए डेटा का उपयोग करने के लक्ष्य को सुनिश्चित करना चाहिए, और दूसरी ओर, हमें व्यक्तियों और संगठनों के लिए डेटा सुरक्षा सुनिश्चित करनी चाहिए। डेटा सुरक्षा सुनिश्चित करने की प्रक्रिया में मानवीय पहलू एक बहुत ही महत्वपूर्ण कड़ी है। इनमें डेवलपर्स, उत्पाद उपयोगकर्ता और उपयोगकर्ता शामिल हैं। डेवलपर्स के लिए, डेटा संग्रह और प्रसंस्करण की शुरुआत से ही डेटा सुरक्षा के बारे में जागरूकता मौजूद होनी चाहिए। अक्सर, जब कोई समस्या नहीं होती है, तो हम डेटा सुरक्षा के महत्व से अवगत नहीं होते हैं। लेकिन अगर डेटा लीक होता है, तो नुकसान बहुत बड़ा हो सकता है। तकनीकी समस्याओं या जानबूझकर डेटा चोरी के हमलों के कारण डेटा उल्लंघन हो सकता है। जब डेटा का उल्लंघन होता है, तो व्यक्तियों या संगठनों की जानकारी का उपयोग बदमाशों द्वारा अवैध उद्देश्यों के लिए किया जा सकता है, जबकि व्यवसायों को संबंधित समस्याओं को ठीक करने के लिए वित्तीय नुकसान उठाना पड़ सकता है, और यहाँ तक कि उनके ब्रांड को भी नुकसान हो सकता है।
डॉ. दाओ डुक मिन्ह और विनबिगडाटा टीम एक कार्यक्रम में
एनवीसीसी
वियतनामी लोगों की सेवा के लिए तकनीक में महारत हासिल करने की आकांक्षा के बाद, दुनिया में आगे बढ़ने के लिए कदम उठाने ही होंगे? कोई भी संगठन या उद्यम जो अपने उत्पादों को अंतरराष्ट्रीय बाजार में लाना चाहता है, उसे अंतरराष्ट्रीय मानकों का पालन करना होगा। VinBigdata के पास समाधान और तकनीक में मज़बूती है, इसलिए दुनिया को जीतने का लक्ष्य निर्धारित करना स्वाभाविक है। बेशक, कई अलग-अलग उत्पादों और अनुप्रयोगों को लागू करने के लिए, दुनिया भर के उपयोगकर्ताओं की समझ और कई वर्षों के अनुभव वाली अंतरराष्ट्रीय इकाइयों का साथ ज़रूरी है। धन्यवाद!
टिप्पणी (0)