पीवी: महोदय, क्या आप हमें कृत्रिम बुद्धिमत्ता के प्रशिक्षण में डेटा की भूमिका और मूल्य के बारे में बता सकते हैं?
श्री दाओ डुक मिन्ह: कृत्रिम बुद्धिमत्ता की सफलता काफी हद तक इस बात पर निर्भर करेगी कि डेटा का चयन, संग्रह और प्रसंस्करण कैसे किया जाए। एक उच्च-गुणवत्ता वाले कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए, हम अक्सर एक बड़े डेटाबेस से प्रशिक्षण शुरू करते हैं।
फिर, जब मॉडल को तैनात और परीक्षण किया जाता है, तो निरंतर डेटा संग्रह और प्रसंस्करण मॉडल की गुणवत्ता को सुधारने और परिपूर्ण करने में बहुत महत्वपूर्ण भूमिका निभाएगा।
डेटा को मात्रा, गुणवत्ता, विविधता और सार्वभौमिकता के मानकों पर खरा उतरना चाहिए। उदाहरण के लिए, वियतनामी लोगों के लिए ViVi वर्चुअल असिस्टेंट उत्पाद विकसित करने और उन्हें प्रशिक्षित करने की प्रक्रिया में, हमें विभिन्न क्षेत्रों, विविध आयु और लिंगों के लाखों लोगों की आवाज़ों से, सैकड़ों क्षेत्रों की सामग्री के साथ, उच्च-गुणवत्ता वाले डेटा का हज़ारों घंटे संग्रह और प्रसंस्करण करना पड़ा,...
एआई मॉडल में फीड करने के लिए उच्चतम गुणवत्ता वाला डेटा स्रोत बनाने हेतु कच्चे डेटा को शुरू में साफ़, लेबल और कई चरणों के माध्यम से संसाधित किया जाता है, जिससे वीवीआई की सटीकता में सुधार होता है। यह संख्या लगभग अधिकतम: >98% तक पहुँच जाती है।
हज़ारों घंटों का डेटा इकट्ठा करना और उसका प्रसंस्करण करना बहुत महंगा और जटिल है। लेकिन गुणवत्तापूर्ण कृत्रिम बुद्धिमत्ता के लिए हमें अच्छे डेटा की ज़रूरत होती है। चैटजीपीटी या बार्ड (गूगल का चैटबॉट) दोनों ही इंटरनेट पर कई अलग-अलग स्रोतों से एकत्रित विशाल डेटा स्रोतों पर प्रशिक्षित होते हैं।
एआई की सफलता के लिए, इसे बड़े और विविध डेटा स्रोतों पर प्रशिक्षित किया जाना चाहिए, ताकि प्राप्त परिणाम अत्यधिक सटीक हों। इसके विपरीत, बड़े डेटा का विश्लेषण करने के लिए, हमें एआई का उपयोग करके बड़े पैमाने पर डेटा को सटीक रूप से संसाधित करने की क्षमता सुनिश्चित करनी होगी, जिससे अधिक निर्णायक या भविष्यसूचक परिणाम प्राप्त हों।
यह कृत्रिम बुद्धिमत्ता और बड़े डेटा के बीच का संबंध है।
पीवी: कृपया हमें मशीन लर्निंग के लिए डेटा चुनने और इकट्ठा करने की प्रक्रिया के बारे में बताएँ। यह डेटा कैसे और किन स्रोतों से इकट्ठा किया जाएगा? खासकर तब जब वियतनामी उपयोगकर्ताओं के बारे में सबसे ज़्यादा जानकारी विदेशी कंपनियों (गूगल, फेसबुक...) की सोशल नेटवर्किंग साइट्स के पास है।
श्री दाओ डुक मिन्ह: मशीन लर्निंग मॉडल के लिए डेटा चुनने और इकट्ठा करने की प्रक्रिया में पहला कदम यह समझना है कि एक अच्छा विकल्प क्या है। हम बिग डेटा के 5V मॉडल का हवाला दे सकते हैं, एक अच्छे डेटा स्रोत में सभी 5 कारक शामिल होंगे: मात्रा, मूल्य, विविधता, वेग और सत्यता।
आमतौर पर, किसी व्यावहारिक अनुप्रयोग के लिए सर्वोत्तम AI मॉडल बनाने के लिए, एक अच्छे डेटा स्रोत को कई समान समस्याओं में विविध और सार्वभौमिक होने के साथ-साथ उस अनुप्रयोग के लिए विशिष्ट और व्यक्तिगत भी होना चाहिए।
यह एक तथ्य है कि मानव डेटा का सबसे बड़ा स्रोत इंटरनेट और सोशल नेटवर्क पर है। इस डेटा स्रोत का स्वामित्व बड़े पैमाने पर विदेशी कंपनियों के पास है। हालाँकि, डेटा कई अलग-अलग स्रोतों से आ सकता है और वियतनाम को अभी भी अपने स्वयं के डेटा स्रोतों तक पहुँचने का लाभ है। इसके अलावा, कुछ डेटा समस्याएँ हैं जिनका समाधान केवल वियतनामी लोग ही कर सकते हैं। क्योंकि हम ही हैं जो "वियतनामी डेटा" की विशेषताओं को समझते हैं, वियतनामी लोगों की ज़रूरतों और विशेषताओं को समझते हैं, और इस प्रकार वियतनामी लोगों के जीवन की सेवा के लिए तकनीक का सफलतापूर्वक उपयोग करते हैं।
विवि के लिए, विनबिगडाटा ने जो पहली चुनौती रखी, वह थी वियतनामी लोगों द्वारा, वियतनामी लोगों के लिए बनाया गया एक वॉइस असिस्टेंट उत्पाद लाना। यानी, हमें वियतनामी डेटा स्रोतों में महारत हासिल करनी होगी और आर्टिफिशियल इंटेलिजेंस तकनीक के साथ मिलकर एक ऐसा उत्पाद लाना होगा जो वियतनामी लोगों की ज़रूरतों को पूरी तरह से पूरा करे।
इन लक्ष्यों से, हम समझते हैं कि प्रशिक्षण के लिए हमें किन और कहाँ से डेटा स्रोत एकत्र करने की आवश्यकता है। यह डेटा स्रोत आवश्यक रूप से वेब पर मौजूद विशाल डेटा स्रोत ही नहीं होना चाहिए।
वियतनामी डेटा और तकनीक में महारत हासिल करने की चाहत के साथ, अपनी स्थापना के बाद से ही, VinBigData ने अपने स्वयं के डेटा स्रोत बनाए हैं जो वियतनामी लोगों के लिए विशिष्ट हैं। हमारे पास मौजूद डेटा की कुल मात्रा 3,500 टेराबाइट से भी ज़्यादा हो गई है। विशेष रूप से, हमारे पास ये हैं: वियतनाम में लाखों बहु-क्षेत्रीय आवाज़ों का डेटा; कई अलग-अलग स्रोतों से 20 लाख से ज़्यादा मेडिकल इमेज; वियतनाम में कई वस्तुओं (लोगों, वाहनों और वस्तुओं) की कैमरा इमेज का लाखों डेटा, और दर्जनों अलग-अलग बहु-विषयक डेटाबेस..., जिन्हें एकत्रित, साफ़, संसाधित और लेबल किया गया है।
विशेष रूप से, 2021 में, हमने 1000 वियतनामी जीनोम अनुक्रमण परियोजना (बिग डेटा रिसर्च इंस्टीट्यूट - विनबिगडेटा के पूर्ववर्ती द्वारा प्रकाशित) की भी घोषणा की, जो सबसे बड़े वियतनामी जीनोम डेटाबेस वाली इकाइयों में से एक बन गई। इस शोध परिणाम को डॉक्टरों और आनुवंशिकीविदों के समुदाय के साथ साझा किया गया है और किया जा रहा है, जिसका उद्देश्य भविष्य में वियतनाम के लिए व्यक्तिगत चिकित्सा प्रदान करना है।
पीवी : डेटा एकत्र होने के बाद आगे क्या होता है और इसे कैसे मानकीकृत किया जाता है? क्या डेटा जितना बड़ा होगा, उतना ही बेहतर होगा?
श्री दाओ डुक मिन्ह: जैसा कि मैंने कहा, डेटा एकत्र करते समय मात्रा एक महत्वपूर्ण कारक है। हालाँकि, मैं इस बात पर भी ज़ोर देना चाहता हूँ कि: यदि डेटा का चयन, सफाई और वर्गीकरण स्पष्ट रूप से नहीं किया जाता है, तो केवल बड़ा डेटा पर्याप्त नहीं है।
आमतौर पर, डेटा एक बुनियादी प्रसंस्करण चक्र से गुज़रता है जिसमें शामिल हैं: संग्रह (संरचित और असंरचित डेटा), भंडारण (डेटा को एक डेटाबेस सिस्टम में संग्रहीत किया जाता है), प्रसंस्करण (फ़िल्टरिंग, सफ़ाई, लेबलिंग, डेटा संवर्द्धन, सूचना निष्कर्षण/संश्लेषण, और डेटा विज़ुअलाइज़ेशन जैसे चरणों की एक श्रृंखला सहित) और विश्लेषण। एक AI सिस्टम के विकास और पूर्णता के दौरान इस प्रक्रिया को कई बार दोहराया जा सकता है।
महत्वपूर्ण बात यह है कि डेटा जीवन में क्या मूल्य लाएगा? VinBigData लगभग 5 वर्षों से उत्पादों पर शोध और विकास के माध्यम से इसी पर काम कर रहा है। हमारा मानना है कि जब तकनीक वास्तव में जीवन में प्रवेश करेगी, सामाजिक समस्याओं का समाधान करेगी और लोगों के जीवन को बेहतर बनाएगी, तभी अनुसंधान वास्तव में सफल होगा।
पीवी: आपने हाल ही में इस बारे में काफ़ी बात की है कि हम अपना डेटा वेयरहाउस कैसे इकट्ठा करते हैं और बनाते हैं। तो उपयोगकर्ता अधिकारों को सुनिश्चित करने के लिए डेटा संग्रह और उपयोग की सीमाएँ निर्धारित करने के मानदंड क्या होंगे?
श्री दाओ डुक मिन्ह: डेटा एकत्र करने और संसाधित करने की प्रक्रिया में उपयोगकर्ताओं और व्यवसायों दोनों की सुरक्षा के लिए कानूनी नियमों या सुरक्षा मानकों की आवश्यकता होती है। वियतनाम अभी भी उपयोगकर्ता डेटा की सुरक्षा के लिए विशिष्ट मानकों के निर्माण और सुधार की प्रक्रिया में है।
दुनिया में पहले से ही कई मानक मौजूद हैं। उदाहरण के लिए: GDPR - यूरोपीय संघ का उपयोगकर्ता डेटा सुरक्षा मानक; या PCI-DSS एक मानक है जिसका उद्देश्य कार्ड भुगतान उपयोगकर्ताओं की सुरक्षा करना है।
जब हम वियतनामी उत्पादों को लोकप्रिय बनाना चाहते हैं या अंतर्राष्ट्रीय बाजार में लाना चाहते हैं, तो इन अंतर्राष्ट्रीय मानकों का अनुपालन करना बहुत आवश्यक है।
निकट भविष्य में, उपयोगकर्ताओं के अधिकारों को सुनिश्चित करने के लिए, VinBigData डेटा एकत्र करने और उपयोग करने की प्रक्रिया में पारदर्शिता लाने का प्रयास करता है, ताकि डेटा एकत्र करने और उपयोग करने के उद्देश्य और लक्ष्य सार्वजनिक किए जा सकें। खासकर व्यक्तियों के स्वामित्व वाले डेटा के मामले में।
वर्तमान में, VinBigData ने उपयोगकर्ताओं की सुरक्षा और अधिकारों को सुनिश्चित करने के लिए कई अंतरराष्ट्रीय संगठनों के साथ समझौते किए हैं। इसके बाद, हमें उम्मीद है कि व्यवसायों और सरकार के बीच जल्द ही उपयोगकर्ता डेटा की सुरक्षा के लिए एक कानूनी गलियारा और कानूनी मानक बनाने पर सहमति बन जाएगी।
पी.वी.: बड़े डेटा के होने पर, कृत्रिम बुद्धिमत्ता जोखिम या डेटा सुरक्षा कमजोरियों का सामना कैसे करेगी?
श्री दाओ डुक मिन्ह: यदि इसका सही ढंग से उपयोग किया जाए, डेटा एक मूल्यवान संपत्ति होगी। डेटा हानि और लीक होने का जोखिम एक ऐसा मुद्दा है जिसके लिए शुरू से ही सुरक्षा उपाय आवश्यक हैं।
जब तक कुछ घटित नहीं होता, हम अक्सर डेटा सुरक्षा के महत्व को पूरी तरह से नहीं समझ पाते। लेकिन जब कुछ घटित होता है, तो नुकसान बहुत बड़ा होता है। हाल ही में, 20 करोड़ से ज़्यादा ट्विटर यूज़र्स का डेटा लीक हो गया। यूज़र की जानकारी कई अलग-अलग प्लेटफ़ॉर्म पर सार्वजनिक रूप से बेची गई। मान लीजिए कि अगर ये सभी लाखों यूज़र्स मुकदमा दायर कर दें, तो ट्विटर को भारी नुकसान होगा।
यदि डेटा लीक पूरी तरह से तकनीकी है, तो नुकसान आमतौर पर कम होता है। लेकिन अगर लीक जानबूझकर डेटा चोरी से संबंधित है, तो परिणाम बहुत अप्रत्याशित होते हैं। व्यक्तियों के लिए, बदमाश लीक हुई जानकारी का पूरी तरह से कई अलग-अलग अवैध उद्देश्यों के लिए उपयोग कर सकते हैं। व्यवसायों के लिए, सूचना लीक से न केवल संबंधित समस्याओं को ठीक करने में भारी वित्तीय नुकसान होता है, बल्कि बाजार में प्रतिष्ठा और ब्रांड को भी नुकसान होता है।
पीवी : इन कमजोरियों को दूर करने और डेटा सुरक्षा में सुधार करने के लिए क्या समाधान आवश्यक हैं, महोदय?
श्री दाओ डुक मिन्ह: पहला और सबसे उपयोगी समाधान है शुरू से ही रोकथाम: सूचना सुरक्षा और संरक्षा के लिए उपकरणों का निर्माण; बहु-स्तरीय सुरक्षा; सही प्रक्रिया का संचालन।
विशेष रूप से, सुरक्षा और बचाव रोकथाम में कई अलग-अलग स्तर शामिल हैं। सुरक्षा और बचाव उपकरणों में निवेश के अलावा, उपयोगकर्ताओं और डेटा के प्रसंस्करण और उनके साथ बातचीत के लिए एक प्रक्रिया का निर्माण करना, एक सख्त डेटा जीवनचक्र नियंत्रण प्रक्रिया स्थापित करना, और साथ ही उपयोगकर्ताओं और संचालन टीम के सूचना सुरक्षा कौशल और जागरूकता में सुधार करना, और उचित डेटा उपयोग अधिकार प्रदान करना (किसके पास किस डेटा तक पहुँचने और उसका उपयोग करने का अधिकार है?) आवश्यक है।
दूसरी ओर, व्यवसायों को डेटा सुरक्षा नीतियों को पहचानने और उन्हें लागू करने में लचीलापन अपनाने की भी आवश्यकता है, प्रत्येक प्रकार के डेटा के संवेदनशीलता स्तर और सुरक्षा स्तर को वर्गीकृत करना, ताकि उचित सुरक्षा उपाय अपनाए जा सकें, तथा सूचना सुरक्षा नीतियों को यांत्रिक रूप से बहुत अधिक सख्ती से लागू करने से बचना चाहिए, जो कभी-कभी डेटा विकास और शोषण की प्रक्रिया में बाधा उत्पन्न कर सकता है।
खासकर उन इकाइयों के लिए जो विकास के लिए डेटा का उपयोग करती हैं, डेटा वर्गीकरण और भी महत्वपूर्ण है। क्योंकि डेटा को विभिन्न विभागों के बीच बहुत अधिक प्रसारित करना होगा।
व्यवसायों को सबसे खराब स्थिति के लिए तैयार रहना चाहिए, तथा यथासंभव क्षति को न्यूनतम करने के लिए प्रासंगिक विशेषज्ञों को अपने पास रखना चाहिए।
पीवी : 2023 डेटा का वर्ष होगा। डेटा के मामले में वियतनाम की ताकत और कमज़ोरियाँ क्या हैं? आपकी राय में, डिजिटल डेटा के एक सफल वर्ष के लिए हमें क्या तैयारी करनी होगी?
श्री दाओ डुक मिन्ह: 2023 वियतनाम के लिए डिजिटल डेटा का वर्ष होगा। लाभ की बात करें तो, डेटा के मामले में हमारी स्थिति बेहतर है। वियतनाम की जनसंख्या 10 करोड़ है। इसमें स्मार्टफोन, पर्सनल कंप्यूटर आदि का उपयोग करने वाले युवाओं का अनुपात अधिक है। यह वियतनाम में डेटा को बढ़ावा देने और कृत्रिम बुद्धिमत्ता द्वारा हल की जाने वाली समस्याओं को जन्म देने की एक विशेषता है। दूसरी ताकत लोग हैं। विशेष रूप से, वियतनाम में कृत्रिम बुद्धिमत्ता के क्षेत्र में दुनिया के अग्रणी विशेषज्ञ हैं। इसके अलावा, देश में सूचना प्रौद्योगिकी के क्षेत्र में युवा मानव संसाधन गणित में बहुत अच्छी पकड़ रखते हैं। ये दो ऐसे मानव संसाधन हैं जिन्हें मिलाकर अंतरराष्ट्रीय मानकों के उत्पाद तैयार किए जा सकते हैं।
सीमाओं के संदर्भ में, हमें डेटा के मानकीकरण में कठिनाई होती है। वियतनाम में, प्रत्येक स्थान, प्रत्येक उद्यम, प्रत्येक प्रशासनिक इकाई का डेटा अलग-अलग होता है। डेटा मानकीकृत नहीं है, खंडित है, और समकालिक नहीं है। हमें डेटा के मानकीकरण के लिए एक अधिक विशिष्ट कानूनी गलियारे की भी आवश्यकता है।
एक सफल डिजिटल डेटा वर्ष के लिए, वियतनाम को मूल बिंदुओं को समझने के साथ-साथ तकनीक की शक्ति का लाभ उठाने की भी आवश्यकता है। बिग डेटा और आर्टिफिशियल इंटेलिजेंस के बीच का तालमेल वियतनाम के डिजिटल डेटा वर्ष के लिए एक महत्वपूर्ण कड़ी साबित होगा।
केंद्र से लेकर स्थानीय, सरकारी और उद्यमों तक, सभी स्तरों के डेटा पर महारत हासिल करके, वियतनाम देश के मूल्यवान डिजिटल संसाधनों को "संरक्षित" करने में सक्षम होगा। उन्नत बौद्धिक तकनीकों के साथ, हम इस संसाधन का पूरी तरह से "दोहन" कर पाएँगे।
"वियतनामी लोगों के पास वियतनामी डेटा है" वियतनाम को इस स्थिति से भी बचने में मदद करता है: अपने संसाधनों पर शोषित उत्पादों को वापस खरीदना।
वर्तमान समय में, विशेष रूप से 4.0 क्रांति के दौर में, वियतनाम को पिछली क्रांतियों की तुलना में कई लाभ प्राप्त हैं। हमारे पास तकनीक का लाभ उठाकर विश्व मानचित्र पर अपनी स्थिति को तेज़ी से सुधारने का अवसर है। मुझे लगता है कि इस लक्ष्य को तेज़ी से और अधिक स्थायी रूप से प्राप्त करने की कुंजी "डेटा" और "लोग" हैं।
पी.वी.: अमेरिका में एक बड़ी कृत्रिम बुद्धिमत्ता कंपनी में काम करने के बाद, आप वियतनाम वापस क्यों आये?
श्री दाओ डुक मिन्ह: 2017 में, मैं वियतनाम लौट आया। यह एक महत्वपूर्ण मोड़ कहा जा सकता है। अमेरिका में काम करते हुए, हालाँकि मैंने कई बड़ी सरकारी परियोजनाओं पर काम किया, लेकिन मुझे जो परिणाम मिले, वे अक्सर एक बड़ी प्रक्रिया के कुछ ही चरणों के बराबर थे। कई बार तो मुझे यह भी नहीं पता था कि मेरे द्वारा विकसित समाधान इस्तेमाल किए गए हैं या नहीं, क्योंकि परियोजना की सुरक्षा प्रक्रियाएँ बहुत सख्त थीं।
इस बीच, वियतनाम विकास के चरण में है, और बिग डेटा और आर्टिफिशियल इंटेलिजेंस से जुड़ी कई समस्याओं का समाधान ज़रूरी है। उस समय, मुझे प्रोफ़ेसर वु हा वान का निमंत्रण मिला: वियतनामी लोगों के जीवन की सेवा के लिए वियतनामी तकनीकी समाधान विकसित करने के लक्ष्य को साकार करने के लिए वियतनाम लौटना।
मुझे लगता है कि अगर मैं वियतनाम में रहूँगा, तो मैं ज़्यादा प्रभावशाली समस्याओं पर काम कर पाऊँगा। यही एक अहम बात है जो मेरी वापसी को और भी ज़्यादा सार्थक बनाती है।
पी.वी.: इस बातचीत के लिए धन्यवाद।
- उत्पादन संगठन: वियत अन्ह - होंग वान
- कलाकार: थी उयेन
- फोटो: थान दात
टिप्पणी (0)