DocVQA श्रेणी 6/2025 में आरआरसी रैंकिंग।
वियतनाम में डिजिटल परिवर्तन और कृत्रिम बुद्धिमत्ता अनुप्रयोग परिवर्तन के संदर्भ में, ओसीआर तकनीक (ऑप्टिकल कैरेक्टर रिकॉग्निशन) दस्तावेज़ों के डिजिटलीकरण, व्यावसायिक प्रक्रियाओं के स्वचालन, लागत बचत और प्रबंधन दक्षता में सुधार में एक महत्वपूर्ण भूमिका निभा रही है। हालाँकि, वियतनामी लोगों की उच्चारण और लिखावट की विशेषताओं के कारण, पहचान की समस्या केवल 'शब्दों को पढ़ने' तक ही सीमित नहीं है, बल्कि इसके लिए मॉडल में संदर्भ को व्यापक रूप से समझने की क्षमता भी आवश्यक है।
हाल ही में, सीएमसी टेक्नोलॉजी एप्लीकेशन इंस्टीट्यूट (सीएमसी एटीआई) ने सीएटीआई-वीएलएम (विजुअल डॉक्यूमेंट अंडरस्टैंडिंग) मॉडल की घोषणा की - जिसे 5 टीबी के बड़े डेटा वेयरहाउस से अनुसंधान टीम द्वारा विकसित किया गया है, जो कई अंतरराष्ट्रीय प्रतिस्पर्धियों को पीछे छोड़ते हुए दुनिया में शीर्ष 12 और वियतनाम में शीर्ष 1 पर पहुंच गया है, जिसे जून 2025 में रोबस्ट रीडिंग कॉम्पिटिशन (आरआरसी) द्वारा डॉक्यूमेंट विजुअल क्वेश्चन आंसरिंग (डॉकवीक्यूए) श्रेणी में घोषित किया गया है।
रोबस्ट रीडिंग कॉम्पिटिशन (आरआरसी) एक प्रतिष्ठित वैज्ञानिक खेल का मैदान है, (https://rrc.cvc.uab.es/) जो कि कंप्यूटर विज़न के क्षेत्र में दुनिया में एक प्रतिष्ठित शोध सुविधा, यूनिवर्सिटैट ऑटोनोमा डी बार्सिलोना (यूएबी) स्पेन के कंप्यूटर विज़न सेंटर (सीवीसी) द्वारा आयोजित किया जाता है।
यह प्रतियोगिता 2011 में शुरू हुई थी और कंप्यूटर विज़न के क्षेत्र में दुनिया के अग्रणी मंचों में से एक, अंतर्राष्ट्रीय पाठ विश्लेषण एवं पहचान सम्मेलन (ICDAR) के अंतर्गत प्रतिवर्ष आयोजित की जाती है। यह प्रतियोगिता विश्वविद्यालयों, शोध संस्थानों और सिंघुआ विश्वविद्यालय, हुंडई मोटर समूह, टेनसेंट जैसी बड़ी प्रौद्योगिकी कंपनियों के शोधकर्ताओं और इंजीनियरों को आकर्षित करती है... RRC की समस्याएँ तकनीकी प्रगति को बढ़ावा देने के लिए डिज़ाइन की गई हैं, जो अनुवाद, उद्यम डेटा प्रबंधन से लेकर शहरी विश्लेषण और ऐतिहासिक दस्तावेज़ प्रसंस्करण जैसी व्यावहारिक समस्याओं से निकटता से जुड़ी हैं।
सीएमसी एटीआई के निदेशक डॉ. डांग मिन्ह तुआन ने कहा: "हमें बेहद खुशी है कि सीएमसी टीम की शोध क्षमता को आरआरसी जैसे प्रतिष्ठित वैश्विक मंच पर मान्यता मिली है। बहुत कम समय में ही, शोध टीम ने उच्च रैंकिंग हासिल कर ली है, जिससे विकसित देशों के बड़े नामों के साथ अपनी अंतरराष्ट्रीय प्रतिस्पर्धात्मकता का प्रदर्शन हुआ है। इससे भी महत्वपूर्ण बात यह है कि यह वियतनाम की विशिष्ट समस्याओं और वियतनाम के विशिष्ट क्षेत्रों के समाधान हेतु तकनीक में महारत हासिल करने की क्षमता का स्पष्ट प्रदर्शन है।"
डॉ. डांग मिन्ह तुआन, सीएमसी एटीआई के निदेशक।
CATI-VLM पारंपरिक OCR से इस मायने में अलग है कि यह न केवल वर्णों को निकालता है, बल्कि सूचना की कई परतों को भी समझता है: पाठ सामग्री, गैर-पाठ तत्व (टिक बॉक्स, चेक बॉक्स, चार्ट, हस्ताक्षर, सूत्र), लेआउट (पृष्ठ संरचना, तालिकाएँ, फ़ॉर्म) और शैली (फ़ॉन्ट, हाइलाइट, आदि)। यह मॉडल, ChatGPT की तरह, दस्तावेज़ छवियों पर दिए गए दृश्य प्रश्नों का उत्तर दे सकता है, बिना किसी विशिष्ट फ़ॉर्म को पहले से सीखे।
विशेष रूप से, आरआरसी रैंकिंग पर, केवल 3 बिलियन मापदंडों के साथ CATI-VLM ने 4/7 डेटासेट में उच्चतम सटीकता हासिल की, जो कि डीपसीक (27 बिलियन पैरामीटर), GPT-4 विजन टर्बो + अमेज़ॅन टेक्स्ट्रैक्ट OCR (शीर्ष 34) या Baidu (शीर्ष 22) जैसे कई बिग टेक मॉडल से आगे निकल गया।
यह उपलब्धि एक व्यावहारिक दृष्टिकोण को भी दर्शाती है, जो मुख्य प्रौद्योगिकी में निपुणता प्राप्त करने, पैरामीटर पैमाने का पीछा करने के बजाय वियतनाम की बुनियादी संरचना की स्थिति के अनुरूप मॉडल को अनुकूलित करने पर केंद्रित है।
नमूना कॉलेज प्रवेश आवेदन पत्र
उपरोक्त चित्र में हस्तलेखन से पाठ की पहचान की गई है।
सीएमसी टेक्नोलॉजी ग्रुप के कार्यकारी अध्यक्ष, निदेशक मंडल के अध्यक्ष श्री गुयेन ट्रुंग चिन्ह ने जोर देकर कहा: "यह प्रौद्योगिकी अनुसंधान और विकास (आर एंड डी) में एक दशक से अधिक के लगातार निवेश का परिणाम है। अंतर्राष्ट्रीय प्रौद्योगिकी क्षेत्र में सीएमसी की उच्च उपलब्धियां वियतनामी प्रौद्योगिकी में महारत हासिल करने की रणनीति की पुष्टि करती हैं, साथ ही एआई परिवर्तन के उन्मुखीकरण और वैश्विक बाजार में प्रवेश करने की रणनीति की पुष्टि करती हैं। हमारा मानना है कि वियतनामी खुफिया वैश्विक बिग टेक के साथ कंधे से कंधा मिलाकर चलने में पूरी तरह सक्षम है, जिससे विश्व प्रौद्योगिकी मानचित्र पर एक योग्य स्थान बन सकता है।"
CATI-VLM को C.OpenAI पारिस्थितिकी तंत्र की उत्पाद श्रृंखला में लागू किया जाएगा, जिसमें शामिल हैं: कानूनी दस्तावेजों की समीक्षा के लिए CLS वर्चुअल सहायक, CMC स्मार्टडॉक - डिजिटल दस्तावेज़ रूपांतरण प्लेटफ़ॉर्म, CMC KMS ज्ञान प्रबंधन प्रणाली, स्मार्ट कार्यालयों के लिए स्वचालित रिपोर्टिंग प्रणाली और नई पीढ़ी के एजेंटिक दस्तावेज़ अनुप्रयोग।
क्वांग हुई
स्रोत: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
टिप्पणी (0)