DocVQA ক্যাটাগরিতে RRC-এর র্যাঙ্কিং, জুন ২০২৫।
ভিয়েতনামে দ্রুত ডিজিটাল রূপান্তর এবং কৃত্রিম বুদ্ধিমত্তার ব্যবহারের প্রেক্ষাপটে, ডকুমেন্ট ডিজিটাইজেশন, ব্যবসায়িক প্রক্রিয়ার স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনার দক্ষতা বৃদ্ধিতে ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) প্রযুক্তি ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করছে। তবে, ভিয়েতনামি ভাষার উচ্চারণভঙ্গি ও হস্তাক্ষরসহ এর স্বতন্ত্র বৈশিষ্ট্যগুলোর কারণে, শনাক্তকরণের সমস্যাটি কেবল অক্ষর 'পড়ার' মধ্যেই সীমাবদ্ধ থাকে না; এর জন্য এমন একটি মডেল প্রয়োজন যা প্রেক্ষাপটকে সামগ্রিকভাবে বুঝতে সক্ষম।
সম্প্রতি, সিএমসি ইনস্টিটিউট অফ অ্যাপ্লাইড টেকনোলজি (সিএমসি এটিআই) ঘোষণা করেছে যে, তাদের গবেষণা দল একটি বিশাল ৫ টেরাবাইট ডেটা ওয়্যারহাউস থেকে তৈরি করা CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেলটি, রোবাস্ট রিডিং কম্পিটিশন (আরআরসি) কর্তৃক জুন ২০২৫-এ প্রকাশিত র্যাঙ্কিংয়ে ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চন অ্যানসারিং (DocVQA) বিভাগে বহু আন্তর্জাতিক প্রতিযোগীকে পেছনে ফেলে বিশ্বব্যাপী শীর্ষ ১২ এবং ভিয়েতনামে শীর্ষ ১ স্থান অর্জন করেছে।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হলো একটি মর্যাদাপূর্ণ বৈজ্ঞানিক প্রতিযোগিতা (https://rrc.cvc.uab.es/), যা স্পেনের কম্পিউটার ভিশন ক্ষেত্রে বিশ্বখ্যাত গবেষণা প্রতিষ্ঠান অতোনোমা দে বার্সেলোনা ইউনিভার্সিটি (UAB)-এর কম্পিউটার ভিশন সেন্টার (CVC) দ্বারা আয়োজিত হয়।
২০১১ সালে শুরু হওয়া এই প্রতিযোগিতাটি প্রতি বছর কম্পিউটার ভিশন ক্ষেত্রের বিশ্বের অন্যতম প্রধান ফোরাম, ইন্টারন্যাশনাল কনফারেন্স অন টেক্সট অ্যানালাইসিস অ্যান্ড রিকগনিশন (ICDAR)-এর কাঠামোর মধ্যে অনুষ্ঠিত হয়। এই প্রতিযোগিতাটি বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং সিংহুয়া বিশ্ববিদ্যালয়, হুন্দাই মোটর গ্রুপ ও টেনসেন্টের মতো প্রধান প্রযুক্তি কর্পোরেশনগুলো থেকে অসংখ্য গবেষক ও প্রকৌশলীকে আকর্ষণ করে। RRC-এর সমস্যাগুলো প্রযুক্তিগত অগ্রগতিকে উৎসাহিত করার জন্য তৈরি করা হয়েছে, যা অনুবাদ ও এন্টারপ্রাইজ ডেটা ম্যানেজমেন্ট থেকে শুরু করে নগর বিশ্লেষণ ও ঐতিহাসিক নথি প্রক্রিয়াকরণের মতো বাস্তব সমস্যাগুলোর সাথে ঘনিষ্ঠভাবে যুক্ত।
সিএমসি এটিআই-এর পরিচালক ড. ডাং মিন তুয়ান বলেন: "আমরা আনন্দিত যে আরআরসি-এর মতো একটি মর্যাদাপূর্ণ বৈশ্বিক প্রতিযোগিতার মাধ্যমে সিএমসি দলের গবেষণা সক্ষমতা স্বীকৃত হয়েছে। অল্প সময়ের মধ্যেই গবেষণা দলটি একটি উচ্চ র্যাঙ্কিং অর্জন করেছে, যা উন্নত দেশগুলোর বড় বড় প্রতিষ্ঠানের সাথে আমাদের আন্তর্জাতিক প্রতিযোগিতামূলক সক্ষমতা প্রমাণ করে। আরও গুরুত্বপূর্ণ বিষয় হলো, এটি ভিয়েতনামের ভাষা এবং বিশেষায়িত ক্ষেত্র সম্পর্কিত নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষেত্রে আমাদের দক্ষতার সুস্পষ্ট প্রমাণ।"
ডাং মিন তুয়ান, সিএমসি এটিআই-এর পরিচালক ড.
CATI-VLM প্রচলিত OCR থেকে এই কারণে আলাদা যে, এটি শুধু অক্ষরই শনাক্ত করে না, বরং তথ্যের একাধিক স্তরও বুঝতে পারে: যেমন— টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, ফর্মুলা), লেআউট (পৃষ্ঠার কাঠামো, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইটিং ইত্যাদি)। এই মডেলটি ChatGPT-এর মতোই ডকুমেন্ট ইমেজের উপর করা ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, যার জন্য প্রতিটি নির্দিষ্ট ফর্ম আগে থেকে শেখার প্রয়োজন হয় না।
উল্লেখযোগ্যভাবে, RRC র্যাঙ্কিং-এ, CATI-VLM মাত্র ৩ বিলিয়ন প্যারামিটার থাকা সত্ত্বেও ৭টি ডেটাসেটের মধ্যে ৪টিতে সর্বোচ্চ নির্ভুলতা অর্জন করেছে এবং Deepseek (২৭ বিলিয়ন প্যারামিটার), GPT-4 Vision Turbo + Amazon Textract OCR (শীর্ষ ৩৪), এবং Baidu (শীর্ষ ২২)-এর মতো অনেক বিগ টেক মডেলকে ছাড়িয়ে গেছে।
এই সাফল্যটি একটি বাস্তবসম্মত দৃষ্টিভঙ্গিও প্রদর্শন করে, যা পরিমাপযোগ্যতার মাপকাঠির পিছনে না ছুটে, বরং মূল প্রযুক্তি আয়ত্ত করা এবং ভিয়েতনামের অবকাঠামোগত অবস্থার সাথে মানানসই করে মডেলগুলোকে সর্বোত্তম করার উপর মনোযোগ দেয়।
বিশ্ববিদ্যালয়ে ভর্তির আবেদনপত্রের একটি নমুনা
উপরের ছবিতে থাকা হাতের লেখা থেকে লেখাটি শনাক্ত করা হয়েছে।
সিএমসি টেকনোলজি গ্রুপের বোর্ড চেয়ারম্যান এবং এক্সিকিউটিভ চেয়ারম্যান, জনাব নগুয়েন ট্রুং চিন, জোর দিয়ে বলেন: "এটি প্রযুক্তির গবেষণা ও উন্নয়নে (R&D) এক দশকেরও বেশি সময় ধরে নিরন্তর বিনিয়োগের ফল। আন্তর্জাতিক প্রযুক্তি অঙ্গনে সিএমসি-র উচ্চ সাফল্য, ভিয়েতনামের প্রযুক্তি আয়ত্ত করার আমাদের কৌশলকে নিশ্চিত করে, যা কৃত্রিম বুদ্ধিমত্তায় (AI) রূপান্তর এবং বিশ্ব বাজারে সম্প্রসারণের প্রতি আমাদের অভিমুখীতার সাথে যুক্ত। আমরা বিশ্বাস করি যে, ভিয়েতনামের মেধা বৈশ্বিক বিগ টেকের সাথে প্রতিযোগিতা করতে এবং বিশ্ব প্রযুক্তি মানচিত্রে একটি যোগ্য স্থান তৈরি করতে সম্পূর্ণরূপে সক্ষম।"
CATI-VLM, C.OpenAI-এর পণ্য ইকোসিস্টেমে প্রয়োগ করা হবে, যার মধ্যে রয়েছে: আইনি নথি পর্যালোচনার জন্য CLS ভার্চুয়াল অ্যাসিস্ট্যান্ট, CMC SmartDoc – একটি ডিজিটাল ডকুমেন্ট ট্রান্সফরমেশন প্ল্যাটফর্ম, CMC KMS নলেজ ম্যানেজমেন্ট সিস্টেম (স্মার্ট অফিসের জন্য একটি স্বয়ংক্রিয় রিপোর্টিং সিস্টেম), এবং পরবর্তী প্রজন্মের Agentic Documents অ্যাপ্লিকেশনসমূহ।
কোয়াং হুই
উৎস: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






মন্তব্য (0)