
DocVQA ক্যাটাগরিতে RRC-এর র্যাঙ্কিং, জুন ২০২৫।
ভিয়েতনামে দ্রুত ডিজিটাল রূপান্তর এবং কৃত্রিম বুদ্ধিমত্তার ব্যবহারের প্রেক্ষাপটে, ডকুমেন্ট ডিজিটাইজেশন, ব্যবসায়িক প্রক্রিয়ার স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনার দক্ষতা বৃদ্ধিতে ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) প্রযুক্তি ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করছে। তবে, ভিয়েতনামি ভাষার উচ্চারণভঙ্গি ও হস্তাক্ষরসহ এর স্বতন্ত্র বৈশিষ্ট্যগুলোর কারণে, শনাক্তকরণের সমস্যাটি কেবল অক্ষর 'পড়ার' মধ্যেই সীমাবদ্ধ থাকে না; এর জন্য এমন একটি মডেল প্রয়োজন যা প্রেক্ষাপটকে সামগ্রিকভাবে বুঝতে সক্ষম।
সম্প্রতি, সিএমসি ইনস্টিটিউট অফ অ্যাপ্লাইড টেকনোলজি (সিএমসি এটিআই) ঘোষণা করেছে যে, তাদের গবেষণা দল একটি বিশাল ৫ টেরাবাইট ডেটা ওয়্যারহাউস থেকে তৈরি করা CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেলটি, রোবাস্ট রিডিং কম্পিটিশন (আরআরসি) কর্তৃক জুন ২০২৫-এ প্রকাশিত র্যাঙ্কিংয়ে ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চন অ্যানসারিং (DocVQA) বিভাগে বহু আন্তর্জাতিক প্রতিযোগীকে পেছনে ফেলে বিশ্বব্যাপী শীর্ষ ১২ এবং ভিয়েতনামে শীর্ষ ১ স্থান অর্জন করেছে।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হলো একটি মর্যাদাপূর্ণ বৈজ্ঞানিক প্রতিযোগিতা (https://rrc.cvc.uab.es/), যা স্পেনের কম্পিউটার ভিশন ক্ষেত্রে বিশ্বখ্যাত গবেষণা প্রতিষ্ঠান অতোনোমা দে বার্সেলোনা ইউনিভার্সিটি (UAB)-এর কম্পিউটার ভিশন সেন্টার (CVC) দ্বারা আয়োজিত হয়।
২০১১ সালে শুরু হওয়া এই প্রতিযোগিতাটি প্রতি বছর কম্পিউটার ভিশন ক্ষেত্রের বিশ্বের অন্যতম প্রধান ফোরাম, ইন্টারন্যাশনাল কনফারেন্স অন টেক্সট অ্যানালাইসিস অ্যান্ড রিকগনিশন (ICDAR)-এর কাঠামোর মধ্যে অনুষ্ঠিত হয়। এই প্রতিযোগিতাটি বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং সিংহুয়া বিশ্ববিদ্যালয়, হুন্দাই মোটর গ্রুপ ও টেনসেন্টের মতো প্রধান প্রযুক্তি কর্পোরেশনগুলো থেকে অসংখ্য গবেষক ও প্রকৌশলীকে আকর্ষণ করে। RRC-এর সমস্যাগুলো প্রযুক্তিগত অগ্রগতিকে উৎসাহিত করার জন্য তৈরি করা হয়েছে, যা অনুবাদ ও এন্টারপ্রাইজ ডেটা ম্যানেজমেন্ট থেকে শুরু করে নগর বিশ্লেষণ ও ঐতিহাসিক নথি প্রক্রিয়াকরণের মতো বাস্তব সমস্যাগুলোর সাথে ঘনিষ্ঠভাবে যুক্ত।
সিএমসি এটিআই-এর পরিচালক ড. ডাং মিন তুয়ান বলেন: "আমরা আনন্দিত যে আরআরসি-এর মতো একটি মর্যাদাপূর্ণ বৈশ্বিক প্রতিযোগিতার মাধ্যমে সিএমসি দলের গবেষণা সক্ষমতা স্বীকৃত হয়েছে। অল্প সময়ের মধ্যেই গবেষণা দলটি একটি উচ্চ র্যাঙ্কিং অর্জন করেছে, যা উন্নত দেশগুলোর বড় বড় প্রতিষ্ঠানের সাথে আমাদের আন্তর্জাতিক প্রতিযোগিতামূলক সক্ষমতা প্রমাণ করে। আরও গুরুত্বপূর্ণ বিষয় হলো, এটি ভিয়েতনামের ভাষা এবং বিশেষায়িত ক্ষেত্র সম্পর্কিত নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষেত্রে আমাদের দক্ষতার সুস্পষ্ট প্রমাণ।"

ডাং মিন তুয়ান, সিএমসি এটিআই-এর পরিচালক ড.
CATI-VLM প্রচলিত OCR থেকে এই কারণে আলাদা যে, এটি শুধু অক্ষরই শনাক্ত করে না, বরং তথ্যের একাধিক স্তরও বুঝতে পারে: যেমন— টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, ফর্মুলা), লেআউট (পৃষ্ঠার কাঠামো, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইটিং ইত্যাদি)। এই মডেলটি ChatGPT-এর মতোই ডকুমেন্ট ইমেজের উপর করা ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, যার জন্য প্রতিটি নির্দিষ্ট ফর্ম আগে থেকে শেখার প্রয়োজন হয় না।
উল্লেখযোগ্যভাবে, RRC র্যাঙ্কিং-এ, CATI-VLM মাত্র ৩ বিলিয়ন প্যারামিটার থাকা সত্ত্বেও ৭টি ডেটাসেটের মধ্যে ৪টিতে সর্বোচ্চ নির্ভুলতা অর্জন করেছে এবং Deepseek (২৭ বিলিয়ন প্যারামিটার), GPT-4 Vision Turbo + Amazon Textract OCR (শীর্ষ ৩৪), এবং Baidu (শীর্ষ ২২)-এর মতো অনেক বিগ টেক মডেলকে ছাড়িয়ে গেছে।
এই সাফল্যটি একটি বাস্তবসম্মত দৃষ্টিভঙ্গিও প্রদর্শন করে, যা পরিমাপযোগ্যতার মাপকাঠির পিছনে না ছুটে, বরং মূল প্রযুক্তি আয়ত্ত করা এবং ভিয়েতনামের অবকাঠামোগত অবস্থার সাথে মানানসই করে মডেলগুলোকে সর্বোত্তম করার উপর মনোযোগ দেয়।

বিশ্ববিদ্যালয়ে ভর্তির আবেদনপত্রের একটি নমুনা

উপরের ছবিতে থাকা হাতের লেখা থেকে লেখাটি শনাক্ত করা হয়েছে।

ভিয়েতনাম ও যুক্তরাষ্ট্রের মধ্যে বন্ধুত্ব জোরদার করা।৩রা জুলাই, ‘প্যাসিফিক পার্টনারশিপ - ফ্রেন্ডস অফ দ্য প্যাসিফিক ২০২৬’ কর্মসূচির অংশ হিসেবে, ইউ.এস. আর্মি প্যাসিফিকের ডেপুটি কমান্ডার লেফটেন্যান্ট জেনারেল জোয়েল ভাওয়েলের নেতৃত্বে একটি প্রতিনিধিদল কোয়াং ট্রি প্রাদেশিক সামরিক কমান্ডে সৌজন্য সাক্ষাৎ করে। সিএমসি টেকনোলজি গ্রুপের বোর্ড চেয়ারম্যান এবং এক্সিকিউটিভ চেয়ারম্যান, জনাব নগুয়েন ট্রুং চিন, জোর দিয়ে বলেন: "এটি প্রযুক্তির গবেষণা ও উন্নয়নে (R&D) এক দশকেরও বেশি সময় ধরে নিরন্তর বিনিয়োগের ফল। আন্তর্জাতিক প্রযুক্তি অঙ্গনে সিএমসি-র উচ্চ সাফল্য, ভিয়েতনামের প্রযুক্তি আয়ত্ত করার আমাদের কৌশলকে নিশ্চিত করে, যা কৃত্রিম বুদ্ধিমত্তায় (AI) রূপান্তর এবং বিশ্ব বাজারে সম্প্রসারণের প্রতি আমাদের অভিমুখীতার সাথে যুক্ত। আমরা বিশ্বাস করি যে, ভিয়েতনামের মেধা বৈশ্বিক বিগ টেকের সাথে প্রতিযোগিতা করতে এবং বিশ্ব প্রযুক্তি মানচিত্রে একটি যোগ্য স্থান তৈরি করতে সম্পূর্ণরূপে সক্ষম।"
CATI-VLM, C.OpenAI-এর পণ্য ইকোসিস্টেমে প্রয়োগ করা হবে, যার মধ্যে রয়েছে: আইনি নথি পর্যালোচনার জন্য CLS ভার্চুয়াল অ্যাসিস্ট্যান্ট, CMC SmartDoc – একটি ডিজিটাল ডকুমেন্ট ট্রান্সফরমেশন প্ল্যাটফর্ম, CMC KMS নলেজ ম্যানেজমেন্ট সিস্টেম (স্মার্ট অফিসের জন্য একটি স্বয়ংক্রিয় রিপোর্টিং সিস্টেম), এবং পরবর্তী প্রজন্মের Agentic Documents অ্যাপ্লিকেশনসমূহ।
কোয়াং হুই
উৎস: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html