Vietnam.vn - Nền tảng quảng bá Việt Nam

दो पुरुष छात्रों ने दुनिया के अग्रणी एआई सम्मेलन में शोध प्रकाशित किया

VnExpressVnExpress12/02/2024

[विज्ञापन_1]

एआई को नया डेटा उत्पन्न करने में सक्षम बनाने के लिए प्रतिकूल प्रशिक्षण विधियों का उपयोग करते हुए, हो ची मिन्ह सिटी यूनिवर्सिटी ऑफ टेक्नोलॉजी के दो छात्रों का शोध एएएआई - दुनिया के अग्रणी एआई सम्मेलन में प्रकाशित हुआ।

23 वर्षीय फाम खान त्रिन्ह और ले मिन्ह खोई द्वारा समानार्थी शब्द बनाने के लिए बहुभाषी मॉडल प्रशिक्षण एआई पर किए गए शोध को कनाडा के वैंकूवर में फरवरी के अंत में आयोजित आर्टिफिशियल इंटेलिजेंस पर AAAI-24 सम्मेलन के दस्तावेजों में प्रकाशित किया गया था।

हो ची मिन्ह सिटी यूनिवर्सिटी ऑफ़ टेक्नोलॉजी के कंप्यूटर विज्ञान एवं इंजीनियरिंग संकाय के उप-डीन, एसोसिएट प्रोफ़ेसर डॉ. क्वान थान थो ने इसे एक सराहनीय परिणाम बताया। श्री थो ने कहा कि AAAI को कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता के क्षेत्र में वैज्ञानिक सम्मेलनों में शोधकर्ताओं और विशेषज्ञों द्वारा सर्वोच्च गुणवत्ता वाला माना जाता है, और इस वर्ष इसकी लेख स्वीकृति दर बहुत कम, केवल 23.75% रही।

मिन्ह खोई और खान त्रिन्ह (बीच में) 2023 में अपनी स्नातक थीसिस की रक्षा के दौरान। फोटो: चरित्र द्वारा प्रदान की गई

मिन्ह खोई और खान त्रिन्ह (बीच में) 2023 में अपनी स्नातक थीसिस की रक्षा के दौरान। फोटो: चरित्र द्वारा प्रदान की गई

डीप लर्निंग और नेचुरल लैंग्वेज प्रोसेसिंग के प्रति समान जुनून रखते हुए, त्रिन्ह और खोई ने बड़े भाषा मॉडल (एलएलएम) पर शोध करने का फैसला किया। दोनों एलएलएम की सीमाओं का पता लगाना और उसे बेहतर बनाना चाहते थे।

खान त्रिन्ह ने कहा कि चैट जीपीटी या एलएलएम को उपयोगकर्ताओं के लिए सटीक और विविध प्रतिक्रियाएँ तैयार करने हेतु भारी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित करने की आवश्यकता होती है। दोनों लड़कों ने महसूस किया कि हिंदी, कज़ाख या इंडोनेशियाई जैसी कम लोकप्रिय भाषाओं के साथ, चैट जीपीटी और एलएलएम अक्सर अप्रत्याशित परिणाम देते हैं क्योंकि उन्होंने इन भाषाओं का अधिक अध्ययन नहीं किया होता है, या इन भाषाओं में उनके सीखने के लिए पर्याप्त डेटा नहीं होता है।

"हम उन भाषाओं के 'थोड़े संसाधनों' से और अधिक टेक्स्ट डेटा क्यों नहीं बनाते ताकि एआई को और बेहतर ढंग से प्रशिक्षित किया जा सके?", दोनों पुरुष छात्रों ने पूछा। यहीं से, लैम्पैट मॉडल (एडवर्सेरियल ट्रेनिंग का उपयोग करते हुए बहुभाषी पैराफ़्रेज़िंग के लिए निम्न-श्रेणी अनुकूलन) - त्रिन्ह और खोई द्वारा शोधित एडवर्सेरियल प्रशिक्षण पद्धति का उपयोग करके बहुभाषी व्याख्या, का जन्म हुआ।

LAMPAT किसी दिए गए इनपुट वाक्य से एक समानार्थी शब्द उत्पन्न करने में सक्षम है, ताकि अधिक टेक्स्ट डेटा उत्पन्न किया जा सके। "एडवर्सरीयल ट्रेनिंग" एक्सप्लेनर बड़े भाषा मॉडलों के प्रशिक्षण के लिए एक अपेक्षाकृत नई विधि है। पारंपरिक प्रशिक्षण विधियों में, एक इनपुट वाक्य दिए जाने पर, एप्लिकेशन एक आउटपुट वाक्य उत्पन्न करेगा। लेकिन एडवर्सरीयल ट्रेनिंग के साथ, एप्लिकेशन आउटपुट वाक्य पर टिप्पणी कर सकता है और उसे संपादित करके स्वयं "एडवर्सरीयल" वाक्य बना सकता है ताकि अधिक वाक्य उत्पन्न किए जा सकें।

LAMPAT की बहुभाषिकता इस तथ्य में निहित है कि यह मॉडल एक ही समय में 60 भाषाओं को एकीकृत करता है। एकत्रित डेटा सेट के आधार पर, टीम LAMPAT को समानार्थी शब्द उत्पन्न करने के लिए प्रशिक्षित करना जारी रखती है। LAMPAT से उत्पन्न टेक्स्ट डेटा का उपयोग LLM को प्रशिक्षित करने के लिए किया जाता रहेगा ताकि ये मॉडल एक ही विषयवस्तु के लिए जानकारी व्यक्त करने के कई अलग-अलग तरीके सीख सकें, जिससे सही होने की अधिक संभावना वाले विविध उत्तर प्राप्त हो सकें। इस विशेषता के साथ, टीम प्रतिनिधि का मानना ​​है कि LAMPAT को ChatGPT जैसे अनुप्रयोगों में एकीकृत करके इस मॉडल को और बेहतर बनाया जा सकता है।

इसके अलावा, चैट जीपीटी या एलएलएम के लिए डेटा की कमी के कारण कुछ कंपनियों को कॉपीराइट संबंधी मुद्दों पर ध्यान दिए बिना, पुस्तकों, समाचार पत्रों, ब्लॉगों जैसे कई बाहरी स्रोतों की तलाश करनी पड़ती है। खान त्रिन्ह के अनुसार, समानार्थी शब्द बनाना भी साहित्यिक चोरी और कॉपीराइट उल्लंघन को सीमित करने के तरीकों में से एक है।

नाम सिन्ह ने चैट जीपीटी जैसे अनुप्रयोगों का एक उदाहरण दिया, जब कोई उपयोगकर्ता किसी मौजूदा पाठ ए के सारांश का अनुरोध करता है, तो एप्लिकेशन एक सारांश पाठ बी उत्पन्न करेगा। यदि समूह की शोध पद्धति एकीकृत है, तो पाठ ए प्राप्त करते समय, एप्लिकेशन समानार्थी शब्द बनाने की प्रणाली के आधार पर समान सामग्री ए1, ए2, ए3 के साथ कई पाठ उत्पन्न करेगा, जिसमें से यह पाठ को सारांशित करेगा और उपयोगकर्ता के लिए चुनने के लिए कई परिणाम उत्पन्न करेगा।

प्रारंभिक शोध अवधि के दौरान, टीम को 60 भाषाओं के लिए मूल्यांकन डेटा तैयार करने में कठिनाई हुई। पर्याप्त मात्रा में डेटा उपलब्ध न होने के कारण, टीम ने मॉडल का निष्पक्ष मूल्यांकन करने के लिए 13 भाषाओं का एक विविध और संपूर्ण डेटासेट संकलित किया, जिनमें शामिल हैं: वियतनामी, अंग्रेज़ी, फ़्रेंच, जर्मन, रूसी, जापानी, चीनी, स्पेनिश, हंगेरियन, पुर्तगाली, स्वीडिश, फ़िनिश, चेक। यह अंतिम मानव मूल्यांकन चरण के लिए भी एक विश्वसनीय डेटासेट है।

मिन्ह खोई (बाएँ) और खान त्रिन्ह (दाएँ) ने नवंबर 2023 में स्नातक दिवस पर शिक्षक क्वान थान थो के साथ एक यादगार तस्वीर ली। तस्वीर: चरित्र द्वारा प्रदान की गई।

मिन्ह खोई (बाएँ) और खान त्रिन्ह (दाएँ) ने नवंबर 2023 में स्नातक दिवस पर शिक्षक क्वान थान थो के साथ एक यादगार तस्वीर ली। तस्वीर: चरित्र द्वारा प्रदान की गई।

अंग्रेजी, वियतनामी, जर्मन, फ्रेंच और जापानी में से प्रत्येक के लिए, टीम ने मूल्यांकन के लिए वाक्यों के 200 जोड़े (एक जोड़ा जिसमें आउटपुट वाक्य और सही लेबल शामिल थे) यादृच्छिक रूप से निकाले। उपरोक्त प्रत्येक भाषा के लिए, टीम ने पाँच भाषा विशेषज्ञों से तीन मानदंडों के आधार पर स्वतंत्र रूप से उन्हें अंक देने को कहा: अर्थ संरक्षण; शब्द चयन और शब्दावली समानता; और आउटपुट वाक्य की प्रवाहशीलता और सुसंगतता। पैमाने की गणना 1 से 5 तक की गई। परिणामस्वरूप, इन पाँच भाषाओं में भाषा विशेषज्ञों द्वारा प्राप्त औसत मूल्यांकन अंक 4.2 से 4.6/5 अंक तक रहे।

उदाहरण में वियतनामी वाक्यों की एक जोड़ी दी गई है, जिसे 4.4/5 अंक दिए गए हैं, जिसमें इनपुट वाक्य है: "उन्होंने समस्या को विस्तार से समझाया", और आउटपुट वाक्य है: "उन्होंने समस्या को विस्तार से समझाया"।

लेकिन खराब गुणवत्ता और गलत शब्दार्थ वाले वाक्यों के जोड़े भी हैं, जैसे कि वाक्यों की जोड़ी "हम सूप गर्म होने पर खाते हैं - हम गर्म होने पर सूप खाते हैं", जिसे केवल 2/5 अंक मिलते हैं।

खान त्रिन्ह ने बताया कि इस प्रोजेक्ट पर शोध और उसे पूरा करने में 8 महीने लगे। यही त्रिन्ह और खोई के स्नातक शोध-प्रबंध का विषय भी है। इस शोध-प्रबंध को कंप्यूटर विज्ञान परिषद 2 में 9.72/10 अंकों के साथ प्रथम स्थान मिला।

श्री क्वान थान थो के अनुसार, यद्यपि लैम्पैट ने अनेक भाषाओं में मानव-समान पर्यायवाची वाक्यांशों को सृजित करने में अपनी दक्षता प्रदर्शित की है, फिर भी विभिन्न भाषाओं में मुहावरों, लोकगीतों और कहावतों को संभालने के लिए इसमें सुधार की आवश्यकता है।

इसके अलावा, टीम के मूल्यांकन डेटासेट में केवल 13 भाषाएँ शामिल हैं, जिससे कई, खासकर अल्पसंख्यक भाषाएँ, छूट जाती हैं। इसलिए, टीम को वर्तमान बहुभाषी व्याख्या मॉडलों की क्षमताओं को बेहतर बनाने और उनका विस्तार करने के लिए शोध करने की आवश्यकता है। यहाँ से, हम देशों और जातीय समूहों के बीच भाषाई अवरोध को दूर कर सकते हैं।

2023 के अंत में, त्रिन्ह और खोई ने कंप्यूटर विज्ञान में सम्मान और विशिष्टता के साथ स्नातक की उपाधि प्राप्त की, जिसका ग्रेड पॉइंट औसत (GPA) क्रमशः 3.7 और 3.9/4 था। दोनों की योजना विदेश में मास्टर डिग्री के लिए अध्ययन करने और कृत्रिम बुद्धिमत्ता एवं मशीन लर्निंग में शोध करने की है।

त्रिन्ह ने बताया, "हम आगामी वैज्ञानिक परियोजनाओं में LAMPAT को और अधिक लागू करने तथा उपयोगकर्ताओं के लिए एक विश्वसनीय बहुभाषी उत्पाद बनाने के लक्ष्य के साथ इस विषय पर अनुसंधान जारी रखे हुए हैं।"

ले गुयेन


[विज्ञापन_2]
स्रोत लिंक

टिप्पणी (0)

No data
No data

उसी विषय में

उसी श्रेणी में

आज सुबह, क्वे नॉन समुद्र तट शहर धुंध में 'स्वप्नमय' लग रहा है
'बादल शिकार' के मौसम में सा पा की मनमोहक सुंदरता
प्रत्येक नदी - एक यात्रा
हो ची मिन्ह सिटी नए अवसरों में एफडीआई उद्यमों से निवेश आकर्षित कर रहा है

उसी लेखक की

विरासत

आकृति

व्यापार

डोंग वान स्टोन पठार - दुनिया का एक दुर्लभ 'जीवित भूवैज्ञानिक संग्रहालय'

वर्तमान घटनाएं

राजनीतिक प्रणाली

स्थानीय

उत्पाद