एआई मॉडलों को ऐसे मानकों की आवश्यकता होती है जो जटिल क्षमताओं का गहराई से आकलन कर सकें

आधुनिक एआई मॉडलों के तेजी से विकास के लिए जटिल क्षमताओं के लिए व्यापक मूल्यांकन मानकों की आवश्यकता है, जिससे उच्च-स्तरीय एलएलएम मॉडलों के विकास को प्रोत्साहन मिल रहा है।

ZNews•03/10/2025

वीएमएलयू (वियतनामी भाषा एलएलएम के लिए शिक्षण, मूल्यांकन और रैंकिंग प्लेटफ़ॉर्म) की 2024 विकास स्थिति रिपोर्ट (एलएलएम) ने वियतनामी भाषा पर केंद्रित एलएलएम की संख्या में तीव्र वृद्धि दर्शाई है। विशेष रूप से, वीएमएलयू प्लेटफ़ॉर्म ने रैंकिंग में 45 एलएलएम प्रकाशित किए हैं, 155 से अधिक संगठनों और व्यक्तियों से मूल्यांकन अनुरोध प्राप्त किए हैं, और 2024 में प्लेटफ़ॉर्म से मूल्यांकन मानदंडों के 691 डाउनलोड और 3,729 एलएलएम मूल्यांकनों का सारांश प्रस्तुत किया है।

कई घरेलू और विदेशी संगठन VMLU का उपयोग कर रहे हैं जैसे कि VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

वीएमएलयू अंग्रेजी 1

वीएमएलयू 2023 में एलएलएम मूल्यांकन मानदंडों का अपना पहला सेट लॉन्च करेगा।

मात्रा में वृद्धि के साथ-साथ, एलएलएम मॉडलों की गुणवत्ता में भी लगातार सुधार हो रहा है। जहाँ पहले एलएलएम को बुनियादी ज्ञान के आधार पर प्रशिक्षित किया जाता था, वहीं अब डेवलपर्स पठन बोध, वार्तालाप आदान-प्रदान या मानवीय तर्क जैसे कौशलों के विकास पर ध्यान केंद्रित करते हैं।

उन्नत वियतनामी एलएलएम मॉडलों के तेजी से मजबूत विकास के जवाब में, वीएमएलयू ने मॉडलों की जटिल क्षमताओं का और अधिक आकलन करने के लिए मानकों के नए सेट प्रकाशित किए हैं।

एलएलएम उत्कृष्टता को बढ़ावा देने वाले मानक

पहले, जब बाज़ार में गुणवत्ता मानकों का अभाव था, तो कई घरेलू शोध समूहों को अपने स्वयं के मानकों के साथ अपने आंतरिक मूल्यांकन उपकरण बनाने पड़ते थे। इससे मूल्यांकन सीमित हो गया था और साथ ही उपयुक्त प्रशिक्षण रणनीतियों के लिए बाज़ार में उपलब्ध एलएलएम के साथ मॉडल की गुणवत्ता की तुलना भी सीमित हो गई थी।

इस समस्या को हल करने के लिए, नवंबर 2023 में, VMLU - सामान्य "मेक इन वियतनाम" मानकों के पहले सेट पर अग्रणी वियतनामी विशेषज्ञों की एक टीम द्वारा शोध किया गया और समुदाय को निःशुल्क प्रदान किया गया।

58 विषयों को कवर करने वाले और कई स्तरों में विभाजित 10,880 बहुविकल्पीय प्रश्नों के मानक सेट ने डेवलपर्स को सामान्य मूल्यांकन डेटा सेट तक आसानी से पहुँचने में मदद की है। साथ ही, VMLU की रैंकिंग का लाभ उठाकर, बाज़ार में मौजूद LLM के साथ अपने मॉडलों की सीधी तुलना करें।

डॉ. डांग ट्रान थाई, प्राकृतिक भाषा प्रसंस्करण विभाग के प्रमुख - विनबिगडाटा वर्चुअल असिस्टेंट टेक्नोलॉजी ब्लॉक, जिनके ViGPT-1.6B-v1 मॉडल को VMLU के स्क्रैच मॉडल (स्क्रैच से प्रशिक्षित LLM) की रैंकिंग में शामिल किया गया है, ने कहा: "VMLU के पास वियतनामी लोगों के लिए LLM की ज्ञान क्षमता का मूल्यांकन करने के लिए अपेक्षाकृत पूर्ण और व्यापक डेटा है। VMLU न केवल प्रत्येक विकास चरण में LLM की गुणवत्ता का मूल्यांकन करने के लिए उपयोगी है, बल्कि प्रशिक्षण प्रक्रिया के दौरान हमारे प्रयोगों की प्रभावशीलता का एक माप भी है।"

डॉ. डांग ट्रान थाई ने कहा, "यह सामान्य रूप से एआई और विशेष रूप से एलएलएम के विकास को बढ़ावा देने के लिए एक 'स्प्रिंगबोर्ड' होगा, क्योंकि हमारे पास अच्छे मानक होने चाहिए ताकि हमारे पास उच्च गुणवत्ता वाले मॉडलों को प्रशिक्षित करने का आधार हो।"

माइक्रोसॉफ्ट के प्रमुख इंजीनियर - डॉ. बाक हंग न्गुयेन ने भी वियतनामी भाषा में एलएलएम मॉडलों के प्रदर्शन के मूल्यांकन में वीएमएलयू की उपयोगिता की पुष्टि की, जिससे विकास इकाइयों को मॉडल की क्षमताओं को बेहतर ढंग से समझने में मदद मिली। इसके अलावा, डॉ. बाक हंग न्गुयेन को उम्मीद है कि वीएमएलयू तर्क, कोड निर्माण और पाठ सारांशीकरण जैसे उपयोगी कौशल भी जोड़ेगा।

VMLU के नए संस्करण का उद्देश्य उच्च-क्रम LLM मॉडल को पूर्ण बनाना है

हाल ही में, वीएमएलयू ने एलएलएम की तर्क और अंतःक्रियात्मक क्षमताओं का आकलन करने वाले मानकों के एक नए सेट की घोषणा जारी की है। मानकों का यह विस्तारित सेट आधुनिक एलएलएम के तीन मुख्य कौशलों का आकलन करता है, जिनमें शामिल हैं:

पठन बोध (ViSQuAD) : 3,310 प्रश्न वियतनामी भाषा और संदर्भ की विशिष्ट विशेषताओं के आधार पर पाठ को गहराई से समझने और जटिल प्रश्नों को संभालने की क्षमता का आकलन करते हैं।

तर्क (ViDrop) : 3,090 प्रश्न तुलना, गिनती और अंकगणितीय गणना जैसे कार्यों के माध्यम से एलएलएम की तार्किक तर्क क्षमताओं को चुनौती देते हैं।

अंतःक्रिया (विडायलॉग) : 210 संवादों में सुसंगतता, संदर्भ को समझने की क्षमता और संवाद में बहु-विषयक ज्ञान (इतिहास, भूगोल, तर्क) को लागू करने की क्षमता का आकलन किया जाता है।

यह अपग्रेड न केवल डेवलपर्स को मॉडल का अधिक व्यापक रूप से मूल्यांकन करने में मदद करता है, बल्कि अंतिम उपयोगकर्ताओं के लिए उपयोगी मूल्य बनाने के लिए एलएलएम को भी बढ़ावा देता है।

VMLU भाई 2

नए VMLU मानक 2025 में जारी किये जायेंगे।

वीएमएलयू को विकसित करने वाली संस्था ज़ालो एआई में आर्टिफिशियल इंटेलिजेंस रिसर्च एंड डेवलपमेंट के निदेशक डॉ. चाउ थान डुक ने कहा: "वर्तमान में दुनिया में बड़े भाषा मॉडल की क्षमता का मूल्यांकन करने के लिए सैकड़ों अलग-अलग मानक मौजूद हैं। हालाँकि, विशेष रूप से वियतनामी के लिए मूल्यांकन मानकों की संख्या बहुत सीमित है। 2023 और 2025 में मानकों के लॉन्च के साथ, हम मूल्यांकन के पहलुओं में विविधता लाने की उम्मीद करते हैं।"

मानकों का नया सेट VMLU वेबसाइट https://vmlu.ai/ पर व्यक्तियों और अनुसंधान समूहों के लिए उनके मॉडलों का मूल्यांकन करने हेतु लॉन्च किया गया है।

VMLU भाई 3

मानकों का नया सेट VMLU वेबसाइट पर अपडेट कर दिया गया है।

वीएमएलयू, ज़ालो एआई द्वारा जापान एडवांस्ड इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी (जेएआईएसटी) के सहयोग से निर्मित वियतनामी एलएलएम मॉडलों के मूल्यांकन और रैंकिंग के लिए एक मंच है, जो नवंबर 2023 से समुदाय को निःशुल्क प्रदान किया जाएगा। वियतनामी एआई समुदाय के साथ मिलकर काम करने के प्रयास के साथ, वीएमएलयू वियतनामी लोगों की नई तकनीकों में महारत हासिल करने की क्षमता को बढ़ावा देने में योगदान दे रहा है। इस प्रकार, विज्ञान, प्रौद्योगिकी, नवाचार और राष्ट्रीय डिजिटल परिवर्तन में एक महत्वपूर्ण दिशा के साथ देश के तकनीकी विकास युग में योगदान दे रहा है।

स्रोत: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html