DocVQA বিভাগে RRC র্যাঙ্কিং ৬/২০২৫।
ভিয়েতনামে ডিজিটাল রূপান্তর এবং কৃত্রিম বুদ্ধিমত্তা প্রয়োগের রূপান্তরের প্রেক্ষাপটে, OCR প্রযুক্তি (অপটিক্যাল ক্যারেক্টার রিকগনিশন) নথি ডিজিটাইজেশন, ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনা দক্ষতা উন্নত করার ক্ষেত্রে ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করে। যাইহোক, উচ্চারণ এবং হাতের লেখা সহ ভিয়েতনামী ভাষার বৈশিষ্ট্যগুলির সাথে, স্বীকৃতি সমস্যা 'শব্দ পড়া'-এ থেমে থাকে না, বরং মডেলটির প্রেক্ষাপটটি ব্যাপকভাবে বোঝার ক্ষমতা থাকা প্রয়োজন।
সম্প্রতি, সিএমসি টেকনোলজি অ্যাপ্লিকেশন ইনস্টিটিউট (সিএমসি এটিআই) CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেল ঘোষণা করেছে - যা গবেষণা দল ৫ টেরাবাইটের একটি বৃহৎ ডেটা গুদাম থেকে তৈরি করেছে, যা অনেক আন্তর্জাতিক প্রতিযোগীকে ছাড়িয়ে বিশ্বের শীর্ষ ১২ এবং ভিয়েতনামের শীর্ষ ১-এ পৌঁছেছে। ২০২৫ সালের জুনে রোবাস্ট রিডিং কম্পিটিশন (আরআরসি) ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চেন অ্যানসারিং (ডকভিকিউএ) বিভাগে এই র্যাঙ্কিং ঘোষণা করেছে।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হল একটি মর্যাদাপূর্ণ বৈজ্ঞানিক খেলার মাঠ, (https://rrc.cvc.uab.es/) যা স্পেনের ইউনিভার্সিটি অটোনোমা ডি বার্সেলোনা (UAB) এর কম্পিউটার ভিশন সেন্টার (CVC) দ্বারা আয়োজিত হয়, যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের একটি মর্যাদাপূর্ণ গবেষণা প্রতিষ্ঠান।
এই প্রতিযোগিতাটি ২০১১ সালে শুরু হয়েছিল এবং প্রতি বছর ইন্টারন্যাশনাল কনফারেন্স অন টেক্সট অ্যানালাইসিস অ্যান্ড রিকগনিশন (ICDAR)-এর কাঠামোর মধ্যে অনুষ্ঠিত হয় - যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের অন্যতম শীর্ষস্থানীয় ফোরাম। এই প্রতিযোগিতায় বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং সিংহুয়া বিশ্ববিদ্যালয়, হুন্ডাই মোটর গ্রুপ, টেনসেন্টের মতো বৃহৎ প্রযুক্তি কর্পোরেশনের বিপুল সংখ্যক গবেষক এবং প্রকৌশলী অংশগ্রহণ করেন... RRC-এর সমস্যাগুলি প্রযুক্তিগত অগ্রগতিকে উৎসাহিত করার জন্য ডিজাইন করা হয়েছে, যা অনুবাদ, এন্টারপ্রাইজ ডেটা ব্যবস্থাপনা থেকে শুরু করে নগর বিশ্লেষণ এবং ঐতিহাসিক নথি প্রক্রিয়াকরণ পর্যন্ত ব্যবহারিক সমস্যার সাথে ঘনিষ্ঠভাবে জড়িত।
সিএমসি এটিআই-এর পরিচালক ডঃ ডাং মিন তুয়ান বলেন, "আমরা খুবই আনন্দিত যে আরআরসির মতো একটি মর্যাদাপূর্ণ বৈশ্বিক খেলার মাঠের মাধ্যমে সিএমসি দলের গবেষণা ক্ষমতা নিশ্চিত করা হয়েছে। খুব অল্প সময়ের মধ্যেই, গবেষণা দলটি উচ্চ র্যাঙ্কিং অর্জন করেছে, উন্নত দেশগুলির বড় নামগুলির সাথে তাদের আন্তর্জাতিক প্রতিযোগিতামূলকতা প্রদর্শন করেছে। আরও গুরুত্বপূর্ণ বিষয় হল, এটি ভিয়েতনামি এবং ভিয়েতনামের বিশেষায়িত ক্ষেত্রগুলির নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষমতার একটি স্পষ্ট প্রদর্শন।"
ডাং মিন তুয়ান, সিএমসি এটিআই-এর পরিচালক ড.
CATI-VLM ঐতিহ্যবাহী OCR থেকে আলাদা যে এটি কেবল অক্ষরই বের করে না, বরং তথ্যের একাধিক স্তরও বোঝে: টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, সূত্র), লেআউট (পৃষ্ঠার গঠন, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইট ইত্যাদি)। মডেলটি ChatGPT-এর মতো ডকুমেন্ট ইমেজে উত্থাপিত ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, নির্দিষ্ট ফর্ম আগে থেকে না শিখেই।
উল্লেখযোগ্যভাবে, RRC র্যাঙ্কিংয়ে, মাত্র ৩ বিলিয়ন প্যারামিটার সহ CATI-VLM ৪/৭ ডেটাসেটে সর্বোচ্চ নির্ভুলতা অর্জন করেছে, যা Deepseek (২৭ বিলিয়ন প্যারামিটার), GPT-4 Vision Turbo + Amazon Textract OCR (শীর্ষ ৩৪) অথবা Baidu (শীর্ষ ২২) এর মতো অনেক বিগ টেক মডেলকে ছাড়িয়ে গেছে।
এই অর্জনটি একটি বাস্তবমুখী দৃষ্টিভঙ্গিও দেখায়, যেখানে মূল প্রযুক্তি আয়ত্ত করার উপর দৃষ্টি নিবদ্ধ করা হয়েছে, প্যারামিটার স্কেলের পিছনে না ছুটে ভিয়েতনামের অবকাঠামোগত অবস্থার সাথে মানানসই মডেলটি অপ্টিমাইজ করা হয়েছে।
কলেজ ভর্তির আবেদনপত্রের নমুনা
উপরের ছবিতে হাতের লেখা থেকে লেখাটি শনাক্ত করা হয়েছে।
সিএমসি টেকনোলজি গ্রুপের নির্বাহী চেয়ারম্যান এবং পরিচালনা পর্ষদের চেয়ারম্যান মিঃ নগুয়েন ট্রুং চিন জোর দিয়ে বলেন: "এটি প্রযুক্তি গবেষণা ও উন্নয়নে (আরএন্ডডি) এক দশকেরও বেশি সময় ধরে অবিরাম বিনিয়োগের ফলাফল। আন্তর্জাতিক প্রযুক্তি খেলার মাঠে সিএমসির উচ্চ অর্জন ভিয়েতনামী প্রযুক্তি আয়ত্ত করার কৌশল, এআই রূপান্তরের অভিমুখীকরণ এবং বিশ্ব বাজারে প্রবেশের সাথে মিলিত হওয়ার বিষয়টি নিশ্চিত করে। আমরা বিশ্বাস করি যে ভিয়েতনামী গোয়েন্দা সংস্থা বিশ্বব্যাপী বিগ টেকের সাথে কাঁধে কাঁধ মিলিয়ে দাঁড়াতে এবং বিশ্ব প্রযুক্তি মানচিত্রে একটি যোগ্য অবস্থান তৈরি করতে সম্পূর্ণরূপে সক্ষম।"
C.OpenAI ইকোসিস্টেমের পণ্য শৃঙ্খলে CATI-VLM প্রয়োগ করা হবে, যার মধ্যে রয়েছে: আইনি নথি পর্যালোচনার জন্য CLS ভার্চুয়াল সহকারী, CMC SmartDoc - ডিজিটাল নথি রূপান্তর প্ল্যাটফর্ম, CMC KMS জ্ঞান ব্যবস্থাপনা ব্যবস্থা, স্মার্ট অফিসের জন্য স্বয়ংক্রিয় রিপোর্টিং সিস্টেম এবং নতুন প্রজন্মের এজেন্টিক ডকুমেন্ট অ্যাপ্লিকেশন।
কোয়াং হুই
সূত্র: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
মন্তব্য (0)