DocVQA বিভাগে RRC র্যাঙ্কিং ৬/২০২৫।
ভিয়েতনামে ডিজিটাল রূপান্তর এবং কৃত্রিম বুদ্ধিমত্তা প্রয়োগের রূপান্তরের প্রেক্ষাপটে, ওসিআর প্রযুক্তি (অপটিক্যাল ক্যারেক্টার রিকগনিশন) নথি ডিজিটালাইজেশন, ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনা দক্ষতা উন্নত করার ক্ষেত্রে ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করে। যাইহোক, উচ্চারণ এবং হাতের লেখার সাথে ভিয়েতনামী ভাষার বৈশিষ্ট্যগুলির সাথে, স্বীকৃতি সমস্যা 'শব্দ পড়া'-এ থেমে থাকে না, বরং মডেলটির প্রেক্ষাপটটি ব্যাপকভাবে বোঝার ক্ষমতা থাকা প্রয়োজন।
সম্প্রতি, সিএমসি টেকনোলজি অ্যাপ্লিকেশন ইনস্টিটিউট (সিএমসি এটিআই) CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেল ঘোষণা করেছে - যা গবেষণা দল ৫ টেরাবাইটের একটি বৃহৎ ডেটা গুদাম থেকে তৈরি করেছে, যা অনেক আন্তর্জাতিক প্রতিযোগীকে ছাড়িয়ে বিশ্বের শীর্ষ ১২ এবং ভিয়েতনামের শীর্ষ ১-এ পৌঁছেছে। ২০২৫ সালের জুনে রোবাস্ট রিডিং কম্পিটিশন (আরআরসি) ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চেন অ্যানসারিং (ডকভিকিউএ) বিভাগে এই র্যাঙ্কিং ঘোষণা করেছে।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হল একটি মর্যাদাপূর্ণ বৈজ্ঞানিক খেলার মাঠ, (https://rrc.cvc.uab.es/) যা স্পেনের ইউনিভার্সিটি অটোনোমা ডি বার্সেলোনা (UAB) এর কম্পিউটার ভিশন সেন্টার (CVC) দ্বারা আয়োজিত হয়, যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের একটি মর্যাদাপূর্ণ গবেষণা প্রতিষ্ঠান।
এই প্রতিযোগিতাটি ২০১১ সালে শুরু হয়েছিল এবং প্রতি বছর ইন্টারন্যাশনাল কনফারেন্স অন টেক্সট অ্যানালাইসিস অ্যান্ড রিকগনিশন (ICDAR)-এর কাঠামোর মধ্যে অনুষ্ঠিত হয় - যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের অন্যতম শীর্ষস্থানীয় ফোরাম। এই প্রতিযোগিতায় বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং সিংহুয়া বিশ্ববিদ্যালয়, হুন্ডাই মোটর গ্রুপ, টেনসেন্টের মতো বৃহৎ প্রযুক্তি কর্পোরেশনের বিপুল সংখ্যক গবেষক এবং প্রকৌশলী অংশগ্রহণ করেন... RRC-এর সমস্যাগুলি প্রযুক্তিগত অগ্রগতিকে উৎসাহিত করার জন্য ডিজাইন করা হয়েছে, যা অনুবাদ, এন্টারপ্রাইজ ডেটা ব্যবস্থাপনা থেকে শুরু করে নগর বিশ্লেষণ এবং ঐতিহাসিক নথি প্রক্রিয়াকরণ পর্যন্ত ব্যবহারিক সমস্যার সাথে ঘনিষ্ঠভাবে জড়িত।
সিএমসি এটিআই-এর পরিচালক ডঃ ডাং মিন তুয়ান বলেন, "আমরা খুবই আনন্দিত যে আরআরসির মতো একটি মর্যাদাপূর্ণ বৈশ্বিক খেলার মাঠের মাধ্যমে সিএমসি দলের গবেষণা ক্ষমতা নিশ্চিত করা হয়েছে। খুব অল্প সময়ের মধ্যেই, গবেষণা দলটি উচ্চ র্যাঙ্কিং অর্জন করেছে, উন্নত দেশগুলির বড় নামগুলির সাথে তাদের আন্তর্জাতিক প্রতিযোগিতামূলকতা প্রদর্শন করেছে। আরও গুরুত্বপূর্ণ বিষয় হল, এটি ভিয়েতনামের ভিয়েতনামী ভাষা এবং বিশেষায়িত ক্ষেত্রগুলির নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষমতার একটি স্পষ্ট প্রদর্শন।"
ডাং মিন তুয়ান, সিএমসি এটিআই-এর পরিচালক ড.
CATI-VLM ঐতিহ্যবাহী OCR থেকে আলাদা যে এটি কেবল অক্ষরই বের করে না, বরং তথ্যের একাধিক স্তরও বোঝে: টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, সূত্র), লেআউট (পৃষ্ঠার গঠন, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইট ইত্যাদি)। মডেলটি ChatGPT-এর মতো ডকুমেন্ট ইমেজে উত্থাপিত ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, নির্দিষ্ট ফর্মগুলি আগে থেকে না শিখেই।
উল্লেখযোগ্যভাবে, RRC র্যাঙ্কিংয়ে, মাত্র ৩ বিলিয়ন প্যারামিটার সহ CATI-VLM ৪/৭ ডেটাসেটে সর্বোচ্চ নির্ভুলতা অর্জন করেছে, যা Deepseek (২৭ বিলিয়ন প্যারামিটার), GPT-4 Vision Turbo + Amazon Textract OCR (শীর্ষ ৩৪) অথবা Baidu (শীর্ষ ২২) এর মতো অনেক বিগ টেক মডেলকে ছাড়িয়ে গেছে।
এই অর্জনটি একটি বাস্তবমুখী দৃষ্টিভঙ্গিও দেখায়, যেখানে মূল প্রযুক্তি আয়ত্ত করার উপর দৃষ্টি নিবদ্ধ করা হয়েছে, প্যারামিটার স্কেলের পিছনে না ছুটে ভিয়েতনামের অবকাঠামোগত অবস্থার সাথে মানানসই মডেলটি অপ্টিমাইজ করা হয়েছে।
কলেজ ভর্তির আবেদনপত্রের নমুনা
উপরের ছবিতে হাতের লেখা দেখে লেখাটি শনাক্ত করা হয়েছে।
সিএমসি টেকনোলজি গ্রুপের নির্বাহী চেয়ারম্যান এবং পরিচালনা পর্ষদের চেয়ারম্যান মিঃ নগুয়েন ট্রুং চিন জোর দিয়ে বলেন: "এটি প্রযুক্তি গবেষণা ও উন্নয়নে (আরএন্ডডি) এক দশকেরও বেশি সময় ধরে অবিরাম বিনিয়োগের ফলাফল। আন্তর্জাতিক প্রযুক্তি খেলার মাঠে সিএমসির উচ্চ অর্জন ভিয়েতনামী প্রযুক্তি আয়ত্ত করার কৌশল, এআই রূপান্তরের অভিমুখীকরণ এবং বিশ্ব বাজারে প্রবেশের সাথে মিলিত হওয়ার বিষয়টি নিশ্চিত করে। আমরা বিশ্বাস করি যে ভিয়েতনামী গোয়েন্দা সংস্থা বিশ্বব্যাপী বিগ টেকের সাথে কাঁধে কাঁধ মিলিয়ে দাঁড়াতে এবং বিশ্ব প্রযুক্তি মানচিত্রে একটি যোগ্য অবস্থান তৈরি করতে সম্পূর্ণরূপে সক্ষম।"
C.OpenAI ইকোসিস্টেমের পণ্য শৃঙ্খলে CATI-VLM প্রয়োগ করা হবে, যার মধ্যে রয়েছে: আইনি নথি পর্যালোচনার জন্য CLS ভার্চুয়াল সহকারী, CMC SmartDoc - ডিজিটাল নথি রূপান্তর প্ল্যাটফর্ম, CMC KMS জ্ঞান ব্যবস্থাপনা ব্যবস্থা, স্মার্ট অফিসের জন্য স্বয়ংক্রিয় রিপোর্টিং সিস্টেম এবং নতুন প্রজন্মের এজেন্টিক ডকুমেন্ট অ্যাপ্লিকেশন।
কোয়াং হুই
সূত্র: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
মন্তব্য (0)