वियतनाम में डिजिटल परिवर्तन और कृत्रिम बुद्धिमत्ता (एआई) परिवर्तन के संदर्भ में, ओसीआर तकनीक (ऑप्टिकल कैरेक्टर रिकग्निशन) दस्तावेज़ों के डिजिटलीकरण, व्यावसायिक प्रक्रियाओं के स्वचालन, लागत बचत और प्रबंधन दक्षता में सुधार में एक महत्वपूर्ण भूमिका निभा रही है। हालाँकि, वियतनामी लोगों की उच्चारण और लिखावट की विशेषताओं के कारण, पहचान की समस्या केवल 'शब्दों को पढ़ने' तक ही सीमित नहीं है, बल्कि इसके लिए मॉडल में संदर्भ को व्यापक रूप से समझने की क्षमता होना आवश्यक है।
हाल ही में, सीएमसी टेक्नोलॉजी एप्लीकेशन इंस्टीट्यूट (सीएमसी एटीआई) ने 5 टीबी बड़े डेटा वेयरहाउस से अनुसंधान टीम द्वारा विकसित सीएटीआई-वीएलएम (विजुअल डॉक्यूमेंट अंडरस्टैंडिंग) मॉडल की घोषणा की, जो डॉक्यूमेंट विजुअल क्वेश्चन आंसरिंग (डॉकवीक्यूए) श्रेणी में जून 2025 में रोबस्ट रीडिंग कॉम्पिटिशन (आरआरसी) द्वारा घोषित रैंकिंग में दुनिया में शीर्ष 12 और वियतनाम में शीर्ष 1 पर पहुंच गया।
DocVQA श्रेणी 6/2025 में आरआरसी रैंकिंग।
रोबस्ट रीडिंग कॉम्पिटिशन (RRC) एक प्रतिष्ठित वैज्ञानिक मंच है (https://rrc.cvc.uab.es/), जिसका आयोजन स्पेन के बार्सिलोना ऑटोनोमा विश्वविद्यालय (UAB) के कंप्यूटर विज़न सेंटर (CVC) द्वारा किया जाता है, जो कंप्यूटर विज़न के क्षेत्र में दुनिया का एक प्रतिष्ठित शोध संस्थान है। 2011 में शुरू हुई यह प्रतियोगिता, जो हमेशा दस्तावेज़ विश्लेषण और कंप्यूटर विज़न पर दुनिया के सबसे बड़े मंचों में से एक, टेक्स्ट एनालिसिस एंड रिकॉग्निशन (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन के साथ होती है, एक महत्वपूर्ण आयोजन बन गई है, जो प्रतिष्ठित विश्वविद्यालयों, शोध संस्थानों और सिंघुआ विश्वविद्यालय, हुंडई मोटर ग्रुप और टेनसेंट जैसी प्रौद्योगिकी कंपनियों के शोधकर्ताओं और इंजीनियरों को आकर्षित करती है... RRC के कार्य तकनीकी प्रगति को बढ़ावा देने के लिए डिज़ाइन किए गए हैं, जो अनुवाद, उद्यम डेटा प्रबंधन से लेकर शहरी विश्लेषण और ऐतिहासिक दस्तावेज़ प्रसंस्करण तक की व्यावहारिक समस्याओं से निकटता से जुड़े हैं।
सीएमसी एटीआई के निदेशक डॉ. डांग मिन्ह तुआन ने कहा: "सीएमसी टीम की शोध क्षमता आरआरसी जैसे प्रतिष्ठित वैश्विक मंच के माध्यम से प्रमाणित होती है। हमें गर्व है कि कम समय में ही, टीम विकसित देशों के बड़े नामों के साथ कंधे से कंधा मिलाकर एक उच्च रैंकिंग प्राप्त कर सकती है। इससे भी महत्वपूर्ण बात यह है कि यह वियतनामी लोगों की विशिष्ट समस्याओं और वियतनाम के विशिष्ट क्षेत्रों के समाधान हेतु प्रौद्योगिकी में निपुणता प्राप्त करने की क्षमता का स्पष्ट प्रदर्शन है।"
CATI-VLM पारंपरिक OCR से इस मायने में अलग है कि यह न केवल वर्णों को निकालता है, बल्कि सूचना की कई परतों को भी समझता है: पाठ सामग्री, गैर-पाठ तत्व (टिक बॉक्स, चेक बॉक्स, चार्ट, हस्ताक्षर, सूत्र), लेआउट (पृष्ठ संरचना, तालिकाएँ, फ़ॉर्म) और शैली (फ़ॉन्ट, हाइलाइट, आदि)। यह मॉडल, ChatGPT की तरह, दस्तावेज़ छवियों पर दिए गए दृश्य प्रश्नों का उत्तर दे सकता है, बिना किसी विशिष्ट फ़ॉर्म को पहले से सीखे।
न्यूज एंड पीपल न्यूजपेपर के अनुसार
स्रोत: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
टिप्पणी (0)