वियतनामी भाषा और वाक् प्रसंस्करण (वीएलएसपी) प्रतियोगिता, वियतनाम सूचना प्रौद्योगिकी संघ की एक शाखा, वीएलएसपी क्लब द्वारा आयोजित वियतनामी भाषा और वाक् प्रसंस्करण पर वार्षिक अंतर्राष्ट्रीय सम्मेलन का एक हिस्सा है। वीएलएसपी 2023 वाक् और पाठ प्रसंस्करण पर 10 प्रतियोगिताओं का आयोजन करता है, जिसमें प्रमुख शोधकर्ता, विशेषज्ञ और प्रौद्योगिकी विकास इकाइयाँ एक साथ आती हैं।

यद्यपि यह चौथी बार था जब वियतटेल एआई ने प्रतियोगिता में भाग लिया था और इससे पहले तीन बार जीत हासिल की थी, फिर भी प्रतियोगिता श्रेणी संरचना में बदलाव के कारण वियतटेल इंजीनियरों को कई कठिनाइयों का सामना करना पड़ा।

खास तौर पर, पिछले साल की तुलना में इस साल स्पीच रिकॉग्निशन और इमोशन रिकॉग्निशन श्रेणियों को एक ही श्रेणी में मिला दिया गया है। टीमों को एक ही समय में दो समस्याओं को हल करना होगा ताकि यह सुनिश्चित हो सके कि वाक्य का पाठ और भाव दोनों पहचाने जा सकें, कार्यभार और कठिनाई दोनों दोगुनी हो गई है।

हर डेटा का उपयोग करें, चाहे वह निम्न गुणवत्ता का हो या उच्च गुणवत्ता का

श्रेणियों की संरचना में बदलाव के अलावा, इस वर्ष की परीक्षा सीमित डेटा स्थितियों के साथ, जिसमें कच्चा, लेबल रहित और निम्न-गुणवत्ता वाला डेटा शामिल है, शुरुआत से ही मॉडल बनाने पर भी केंद्रित है। परीक्षा विभिन्न गुणवत्ता और स्वरूप वाले डेटा के 4 समूह प्रदान करती है। एक डेटा जिसमें केवल लेबल रहित ऑडियो शामिल है, दूसरा डेटा जिसमें केवल ऑडियो और टेक्स्ट शामिल है, तीसरा डेटा जिसमें भावनाएँ और ऑडियो शामिल हैं, उच्च गुणवत्ता, मानक लेबल, और चौथा डेटासेट जिसमें भावनाएँ और ऑडियो शामिल हैं, निम्न गुणवत्ता। प्रत्येक डेटासेट को प्रत्येक उद्देश्य और परीक्षा श्रेणी के अनुसार स्पष्ट रूप से परिभाषित किया गया है, और सभी डेटासेट पर कुल 300 घंटे से अधिक का समय लगता है। स्पीच रिकॉग्निशन के प्रशिक्षण के लिए मानक डेटासेट की तुलना में यह काफी मामूली संख्या है, जिसके लिए आमतौर पर 1,000-2,000 घंटे या उससे अधिक समय की आवश्यकता होती है।

प्रत्येक टीम के पास काम करने और अपना काम प्रस्तुत करने के लिए 2 महीने से भी कम समय था, लेकिन वास्तव में, संसाधनों की कमी के कारण समाधानों पर शोध करने में लगने वाला वास्तविक समय बहुत कम था।

"इस वर्ष, वियतटेल एआई ने नई प्रौद्योगिकियों के अनुसंधान के साथ-साथ उत्पाद विकास के लिए बहुत सारे कंप्यूटिंग बुनियादी ढांचे के संसाधनों को समर्पित किया है, जबकि वाक् पहचान एक ऐसी तकनीक है जिसके लिए बहुत सारे हार्डवेयर संसाधनों की आवश्यकता होती है," श्री डांग दिन्ह सोन - आर्टिफिशियल इंटेलिजेंस इंजीनियर, वर्चुअल असिस्टेंट प्लेटफॉर्म, वियतटेल एआई ने कहा।

चित्र 1.jpg
आर्टिफिशियल इंटेलिजेंस इंजीनियरिंग ग्रुप, वर्चुअल असिस्टेंट प्लेटफॉर्म ब्लॉक, स्पीच रिकॉग्निशन और स्पीच इमोशन रिकॉग्निशन की श्रेणी में भाग लेते हुए विएटल एआई का प्रतिनिधित्व करता है - वीएलएसपी 2023

कम डेटा वॉल्यूम और गुणवत्ता की स्थिति का सामना करते हुए, शोध दल ने तुरंत "निम्न या उच्च गुणवत्ता की परवाह किए बिना सभी डेटा का उपयोग करने" का दृष्टिकोण निर्धारित किया। ऐसा करने के लिए, कई मॉडलों के बजाय कई अलग-अलग समस्याओं को हल करने के लिए सभी डेटा के साथ-साथ केवल एक मॉडल को संसाधित करने के लिए एक प्रशिक्षण चक्र बनाना आवश्यक है।

अग्रणी प्रौद्योगिकी निपुणता के परिणाम

आंकड़ों की कमी और संसाधनों की कमी के संदर्भ में, अनुसंधान दल ने एक सरल, विशाल नहीं, बल्कि महत्वपूर्ण रूप से, सूक्ष्मतम विवरण तक परिष्कृत प्रसंस्करण प्रक्रिया बनाने का निर्णय लिया।

विएटेल एआई इंजीनियरों ने दुनिया भर के प्रमुख सम्मेलनों और पत्रिकाओं में प्रकाशित नवीनतम शोधों का ध्यानपूर्वक अध्ययन करके एक समाधान निकाला। मॉडल को प्रशिक्षित करने के लिए प्रभावी डेटा प्रोसेसिंग विधियों के साथ, शोध दल ने सभी उपलब्ध डेटा को संसाधित करने के लिए एक प्रशिक्षण चक्र तैयार किया। इस चक्र में तीन चरण शामिल हैं: बिना लेबल के ध्वनि विशेषताओं का वर्णन करने के लिए एक पूर्व-प्रशिक्षित मॉडल का निर्माण, दो समस्याओं: वाक् पहचान और भावना पहचान, और अनुमान के लिए पूर्व-प्रशिक्षित मॉडल से फाइन-ट्यूनिंग।

"पिछले उत्पादों के विकास और परिनियोजन के दौरान डेटा की कमी से जुड़ी समस्याओं को हल करने के अनुभव ने भी टीम को निर्णय लेने का तरीका खोजने में महत्वपूर्ण योगदान दिया। इसके विपरीत, परीक्षण से प्राप्त ज्ञान और परिणामों को वियतेल एआई उत्पादों पर तुरंत लागू करने की भी क्षमता है, इसलिए परीक्षण के दौरान काम करने की प्रक्रिया काफी सुचारू रूप से चली," वियतेल एआई के वर्चुअल असिस्टेंट प्लेटफ़ॉर्म इंजीनियर श्री बुई तिएन दात ने कहा।

परिणामस्वरूप, विएटल एआई ने न केवल स्पीच रिकॉग्निशन और स्पीच इमोशन रिकॉग्निशन श्रेणियों में प्रथम पुरस्कार जीता, बल्कि 89.18% का प्रभावशाली स्कोर भी हासिल किया (अगली टीमें क्रमशः 83.40% और 78.45% थीं)।

श्री सोन ने कहा कि मुख्य कारक विशेष रूप से वियतनामी लोगों के लिए भाषण प्रसंस्करण मॉडल में निहित है जिसे विएटेल एआई ने लंबे समय से विकसित किया है।

श्री सोन ने कहा, "उपलब्ध शोध परिणामों से मॉडल और निर्देशों का उपयोग करने के बजाय, विएटल एआई ने वियतनामी स्पीच प्रोसेसिंग के लिए अपना स्वयं का मॉडल बनाने और विकसित करने का विकल्प चुना। इस मॉडल को लगातार अद्यतन और अनुकूलित किया जाता है और यह अधिक से अधिक प्रभावी होता जाता है।"

प्रतिस्पर्धा को सीमित करने के अलावा, विएटल एआई का यह समाधान वर्चुअल स्विचबोर्ड उत्पादों को उन्नत करने का आधार बनेगा। विएटल वर्चुअल असिस्टेंट बातचीत में ग्राहकों की भावनाओं को और भी सटीक रूप से पहचानने में मदद करेगा, जिससे प्रतिक्रिया देने या शब्दों की उपयुक्त बारीकियों का चयन करने में मदद मिलेगी। इस प्रकार, मनुष्यों और एआई के बीच बातचीत अधिक स्वाभाविक हो जाएगी, जिससे उपयोगकर्ता अनुभव बेहतर होगा। ग्राहक सेवा में कई नए अनुप्रयोग भी खुलेंगे, जैसे ग्राहकों की शिकायतों की स्वचालित रूप से पहचान करने और स्विचबोर्ड को समय पर निपटाने या जानकारी का उपयोग करने के लिए एक प्रणाली का निर्माण।

चित्र 2.jpg
श्री बुई तिएन दात - वर्चुअल असिस्टेंट प्लेटफॉर्म इंजीनियर, विएटेल एआई ने सम्मेलन में शोध परिणाम प्रस्तुत करने के लिए टीम का प्रतिनिधित्व किया।

इकाई के प्रतिनिधि ने कहा कि विएटल एआई प्रौद्योगिकी का विकास जारी रखेगा, सटीकता बढ़ाने, उपयोगकर्ता अनुभव और उत्पाद दक्षता को बढ़ाने के लिए उत्पादों को लगातार उन्नत करेगा।

क्वोक तुआन