ভিয়েতনামে কৃত্রিম বুদ্ধিমত্তার রূপান্তর জোরালোভাবে ঘটছে, ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) প্রযুক্তি ডকুমেন্ট ডিজিটাইজেশনে ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করছে। ছবি: চিত্রণ
সম্প্রতি, সিএমসি টেকনোলজি অ্যাপ্লিকেশন ইনস্টিটিউট (সিএমসি এটিআই) ৫ টেরাবাইটের বৃহৎ ডেটা গুদাম থেকে গবেষণা দল কর্তৃক তৈরি CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেল ঘোষণা করেছে, যা ২০২৫ সালের জুনে ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চেন অ্যানসারিং (DocVQA) বিভাগে রোবাস্ট রিডিং কম্পিটিশন (RRC) কর্তৃক ঘোষিত র্যাঙ্কিংয়ে বিশ্বের শীর্ষ ১২ এবং ভিয়েতনামের শীর্ষ ১-এ পৌঁছেছে।
সিএমসি এটিআই-এর পরিচালক মিঃ ড্যাং মিন তুয়ান বলেন: "আমরা খুবই আনন্দিত যে আরআরসির মতো একটি মর্যাদাপূর্ণ বৈশ্বিক খেলার মাঠের মাধ্যমে সিএমসি দলের গবেষণা ক্ষমতা নিশ্চিত করা হয়েছে। আমরা গর্বিত যে খুব অল্প সময়ের মধ্যেই, দলটি উন্নত দেশগুলির বড় নামগুলির সাথে কাঁধে কাঁধ মিলিয়ে একটি উচ্চ র্যাঙ্কিং অর্জন করতে পারে। আরও গুরুত্বপূর্ণ বিষয় হল, এটি ভিয়েতনামি এবং ভিয়েতনামের বিশেষায়িত ক্ষেত্রগুলির নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষমতার একটি স্পষ্ট প্রদর্শন।"
ভিয়েতনামে ডিজিটাল রূপান্তর এবং এআই রূপান্তরের তীব্র প্রেক্ষাপটে, ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) প্রযুক্তি নথি ডিজিটাইজেশন, ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনা দক্ষতা উন্নত করার ক্ষেত্রে ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করছে।
তবে, উচ্চারণ এবং হাতের লেখার ক্ষেত্রে ভিয়েতনামী ভাষার বৈশিষ্ট্যের কারণে, স্বীকৃতির সমস্যাটি 'শব্দ পড়া'-এর মধ্যেই সীমাবদ্ধ থাকে না, বরং মডেলটির প্রেক্ষাপটটি ব্যাপকভাবে বোঝার ক্ষমতা থাকা প্রয়োজন।
CATI-VLM ঐতিহ্যবাহী OCR থেকে আলাদা যে এটি কেবল অক্ষর বের করে না, বরং তথ্যের একাধিক স্তরও বোঝে: টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, সূত্র), লেআউট (পৃষ্ঠার গঠন, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইট...)।
মডেলটি ChatGPT-এর মতো ডকুমেন্ট ইমেজে উত্থাপিত ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, নির্দিষ্ট ফর্মগুলি আগে থেকে শেখার প্রয়োজন ছাড়াই।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হল একটি মর্যাদাপূর্ণ বৈজ্ঞানিক খেলার মাঠ, যা স্পেনের ইউনিভার্সিটি অটোনোমা ডি বার্সেলোনা (UAB) এর কম্পিউটার ভিশন সেন্টার দ্বারা আয়োজিত হয়, যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের একটি মর্যাদাপূর্ণ গবেষণা প্রতিষ্ঠান।
২০১১ সালে শুরু হওয়া, সর্বদা আন্তর্জাতিক টেক্সট বিশ্লেষণ এবং স্বীকৃতি সম্মেলনের সাথে ICDAR - নথি বিশ্লেষণ এবং কম্পিউটার দৃষ্টিভঙ্গির উপর বিশ্বের বৃহত্তম ফোরামগুলির মধ্যে একটি, প্রতিযোগিতাটি একটি গুরুত্বপূর্ণ ইভেন্টে পরিণত হয়েছে, যা সিংহুয়া বিশ্ববিদ্যালয়, হুন্ডাই মোটর গ্রুপ এবং টেনসেন্টের মতো নামীদামী বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং প্রযুক্তি সংস্থাগুলির গবেষক, প্রকৌশলীদের আকর্ষণ করে...
RRC-এর মিশনগুলি প্রযুক্তিগত অগ্রগতিকে চালিত করার জন্য ডিজাইন করা হয়েছে, যা অনুবাদ এবং এন্টারপ্রাইজ ডেটা ব্যবস্থাপনা থেকে শুরু করে নগর বিশ্লেষণ এবং ঐতিহাসিক নথি প্রক্রিয়াকরণ পর্যন্ত বাস্তব-বিশ্বের সমস্যার সাথে সম্পর্কিত।
কাজ থেকে শুরু করে অভিভাবকত্ব: প্রযুক্তিগত প্রধান নির্বাহী কর্মকর্তারা প্রতিদিন কীভাবে AI ব্যবহার করেনজেনসেন হুয়াং থেকে শুরু করে টিম কুক পর্যন্ত, বিশ্বের সবচেয়ে শক্তিশালী প্রযুক্তিগত প্রধান নির্বাহী কর্মকর্তারা তাদের দৈনন্দিন জীবনে AI ব্যবহার করছেন।
সূত্র: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
মন্তব্য (0)