वियतनामी भाषा और वाक् प्रसंस्करण (वीएलएसपी) प्रतियोगिता, वियतनाम सूचना प्रौद्योगिकी संघ की एक शाखा, वीएलएसपी क्लब द्वारा आयोजित वियतनामी भाषा और वाक् प्रसंस्करण पर वार्षिक अंतर्राष्ट्रीय सम्मेलन का एक हिस्सा है। वीएलएसपी 2023 वाक् और पाठ प्रसंस्करण पर 10 प्रतियोगिताओं का आयोजन करता है, जिसमें प्रमुख शोधकर्ता, विशेषज्ञ और प्रौद्योगिकी विकास इकाइयाँ एक साथ आती हैं।

यद्यपि यह चौथी बार था जब वियतटेल एआई ने प्रतियोगिता में भाग लिया था और इससे पहले तीन बार जीत हासिल की थी, फिर भी प्रतियोगिता श्रेणी संरचना में बदलाव के कारण वियतटेल इंजीनियरों को कई कठिनाइयों का सामना करना पड़ा।

खास तौर पर, पिछले साल की तुलना में इस साल वाक् पहचान और भाव पहचान श्रेणियों को एक ही श्रेणी में मिला दिया गया है। टीमों को एक ही समय में दो समस्याओं को हल करना होगा ताकि पाठ और वाक्य के भाव दोनों की पहचान सुनिश्चित हो सके, कार्यभार और कठिनाई दोनों दोगुनी हो गई है।

हर डेटा का उपयोग करें, चाहे वह निम्न गुणवत्ता का हो या उच्च गुणवत्ता का

श्रेणियों की संरचना में बदलाव के अलावा, इस वर्ष की परीक्षा सीमित डेटा स्थितियों के साथ, जिसमें कच्चा, लेबल रहित और निम्न-गुणवत्ता वाला डेटा शामिल है, शुरुआत से ही मॉडल बनाने पर भी केंद्रित है। परीक्षा में विभिन्न गुणवत्ता और स्वरूप वाले डेटा के 4 समूह शामिल हैं। एक डेटा जिसमें केवल लेबल रहित ऑडियो शामिल है, दूसरा डेटा जिसमें केवल ऑडियो और टेक्स्ट शामिल है, तीसरा डेटा जिसमें भावनाएँ और ऑडियो शामिल हैं, उच्च गुणवत्ता, मानक लेबल, और चौथा डेटा जिसमें भावनाएँ और ऑडियो शामिल हैं, निम्न गुणवत्ता। प्रत्येक डेटासेट को प्रत्येक उद्देश्य और परीक्षा श्रेणी के अनुसार स्पष्ट रूप से परिभाषित किया गया है, और सभी डेटासेट पर कुल 300 घंटे से अधिक का समय लगता है। स्पीच रिकॉग्निशन के प्रशिक्षण के लिए मानक डेटासेट की तुलना में यह संख्या काफी कम है, जिसके लिए आमतौर पर 1,000-2,000 घंटे या उससे अधिक समय की आवश्यकता होती है।

प्रत्येक टीम के पास अपना काम पूरा करने और प्रस्तुत करने के लिए 2 महीने से भी कम समय था, लेकिन वास्तव में, संसाधनों की कमी के कारण समाधानों पर शोध करने में लगने वाला वास्तविक समय बहुत कम था।

"इस वर्ष, वियतटेल एआई ने नई प्रौद्योगिकियों के अनुसंधान के साथ-साथ उत्पादों के विकास के लिए बहुत सारे कंप्यूटिंग बुनियादी ढांचे के संसाधनों को समर्पित किया है, जबकि वाक् पहचान एक ऐसी तकनीक है जिसके लिए बहुत बड़े हार्डवेयर संसाधनों की आवश्यकता होती है," श्री डांग दिन्ह सोन - आर्टिफिशियल इंटेलिजेंस इंजीनियर, वर्चुअल असिस्टेंट प्लेटफॉर्म, वियतटेल एआई ने साझा किया।

फोटो 1.jpg
आर्टिफिशियल इंटेलिजेंस इंजीनियरिंग ग्रुप, वर्चुअल असिस्टेंट प्लेटफॉर्म ब्लॉक, स्पीच रिकॉग्निशन और स्पीच इमोशन रिकॉग्निशन की श्रेणी में भाग लेते हुए विएटल एआई का प्रतिनिधित्व करता है - वीएलएसपी 2023

डेटा की कम मात्रा और गुणवत्ता की स्थिति का सामना करते हुए, शोध दल ने तुरंत "निम्न या उच्च गुणवत्ता की परवाह किए बिना सभी डेटा का उपयोग करने" का दृष्टिकोण निर्धारित किया। ऐसा करने के लिए, कई मॉडलों के बजाय कई अलग-अलग समस्याओं को हल करने के लिए सभी डेटा के साथ-साथ केवल एक मॉडल को संसाधित करने के लिए एक प्रशिक्षण चक्र बनाना आवश्यक है।

अग्रणी प्रौद्योगिकी निपुणता के परिणाम

डेटा की कमी और संसाधनों की कमी के संदर्भ में, अनुसंधान दल ने एक सरल, विशाल नहीं, बल्कि महत्वपूर्ण रूप से, सूक्ष्मतम विवरण तक की प्रसंस्करण प्रक्रिया बनाने का निर्णय लिया।

विएटेल एआई इंजीनियरों ने दुनिया भर के प्रमुख सम्मेलनों और पत्रिकाओं में प्रकाशित नवीनतम शोधों का ध्यानपूर्वक अध्ययन करके एक समाधान निकाला। मॉडल को प्रशिक्षित करने के लिए प्रभावी डेटा प्रोसेसिंग विधियों के साथ, शोध दल ने सभी उपलब्ध डेटा को संसाधित करने के लिए एक प्रशिक्षण चक्र तैयार किया। इस चक्र में तीन चरण शामिल हैं: बिना लेबल के ध्वनि विशेषताओं का वर्णन करने के लिए एक पूर्व-प्रशिक्षित मॉडल का निर्माण, दो समस्याओं: वाक् पहचान और भावना पहचान, और अनुमान के लिए पूर्व-प्रशिक्षित मॉडल से फाइन-ट्यूनिंग।

"पिछले उत्पादों के विकास और परिनियोजन के दौरान डेटा की कमी से जुड़ी समस्याओं को हल करने के अनुभव ने भी टीम को एक निर्णायक तरीका खोजने में महत्वपूर्ण योगदान दिया। इसके विपरीत, परीक्षण से प्राप्त ज्ञान और परिणामों को तुरंत Viettel AI उत्पादों पर लागू करने की क्षमता भी है, इसलिए परीक्षण के दौरान काम करने की प्रक्रिया काफी सुचारू रूप से चली," Viettel AI के वर्चुअल असिस्टेंट प्लेटफ़ॉर्म इंजीनियर श्री बुई तिएन दात ने कहा।

परिणामस्वरूप, विएटल एआई ने न केवल स्पीच रिकॉग्निशन और स्पीच इमोशन रिकॉग्निशन श्रेणियों में प्रथम पुरस्कार जीता, बल्कि 89.18% का प्रभावशाली स्कोर भी हासिल किया (अगली टीमें क्रमशः 83.40% और 78.45% थीं)।

श्री सोन ने कहा कि मुख्य कारक विशेष रूप से वियतनामी लोगों के लिए भाषण प्रसंस्करण मॉडल में निहित है जिसे विएट्टेल एआई ने लंबे समय से विकसित किया है।

श्री सोन ने कहा, "उपलब्ध शोध परिणामों से मॉडल और निर्देशों का उपयोग करने के बजाय, विएटल एआई ने वियतनामी स्पीच प्रोसेसिंग के लिए अपना स्वयं का मॉडल बनाने और विकसित करने का विकल्प चुना। इस मॉडल को लगातार अद्यतन और अनुकूलित किया जाता है और यह अधिक से अधिक प्रभावी होता जाता है।"

प्रतिस्पर्धा को सीमित करने के अलावा, विएटल एआई का यह समाधान वर्चुअल स्विचबोर्ड उत्पादों को उन्नत करने का आधार बनेगा। विएटल वर्चुअल असिस्टेंट बातचीत में ग्राहकों की भावनाओं को और भी सटीक रूप से पहचानने में मदद करेगा, जिससे प्रतिक्रिया देने या शब्दों की उपयुक्त बारीकियों का चयन करने में मदद मिलेगी। इस प्रकार, मनुष्यों और एआई के बीच बातचीत अधिक स्वाभाविक हो जाएगी, जिससे उपयोगकर्ता अनुभव बेहतर होगा। ग्राहक सेवा में कई नए अनुप्रयोग भी खुलेंगे, जैसे ग्राहकों की शिकायतों की स्वचालित रूप से पहचान करने और स्विचबोर्ड को समय पर निपटाने या जानकारी का उपयोग करने के लिए एक प्रणाली का निर्माण।

फोटो 2.jpg
श्री बुई तिएन दात - वर्चुअल असिस्टेंट प्लेटफॉर्म इंजीनियर, विएटेल एआई ने कार्यशाला में शोध परिणाम प्रस्तुत करने के लिए टीम का प्रतिनिधित्व किया।

यूनिट प्रतिनिधि ने कहा कि विएटल एआई प्रौद्योगिकी का विकास जारी रखेगा, सटीकता बढ़ाने, उपयोगकर्ता अनुभव और उत्पाद दक्षता को बढ़ाने के लिए उत्पादों को लगातार उन्नत करेगा।

क्वोक तुआन