در زمینه تحول دیجیتال و تحول هوش مصنوعی (AI) در ویتنام، فناوری OCR (تشخیص نوری کاراکتر) نقش بسیار مهمی در دیجیتالی کردن اسناد، خودکارسازی فرآیندهای تجاری، صرفهجویی در هزینهها و بهبود بهرهوری مدیریت ایفا میکند. با این حال، با توجه به ویژگیهای ویتنامیها با لهجهها و دستخط، مشکل تشخیص به «خواندن کلمات» محدود نمیشود، بلکه مستلزم آن است که مدل توانایی درک جامع زمینه را داشته باشد.
اخیراً، موسسه کاربرد فناوری CMC (CMC ATI) مدل CATI-VLM (درک بصری اسناد) را که توسط تیم تحقیقاتی از یک انبار داده بزرگ ۵ ترابایتی توسعه داده شده است، معرفی کرد و در رتبهبندی اعلام شده توسط مسابقه خواندن قدرتمند (RRC) در ژوئن ۲۰۲۵ در بخش پاسخ به سوالات بصری اسناد (DocVQA) به ۱۲ رتبه برتر جهان و ۱ رتبه برتر ویتنام رسید.
رتبهبندی RRC در ردهبندی DocVQA 6/2025.
مسابقهی خواندن قدرتمند (RRC) یک عرصهی علمی معتبر است (https://rrc.cvc.uab.es/) که توسط مرکز بینایی کامپیوتر (CVC) دانشگاه خودمختار بارسلونا (UAB) اسپانیا، یک مرکز تحقیقاتی معتبر در جهان در زمینهی بینایی کامپیوتر، سازماندهی شده است. این مسابقه که در سال ۲۰۱۱ آغاز شد و همواره با کنفرانس بینالمللی تحلیل و تشخیص متن ICDAR - یکی از بزرگترین انجمنهای جهان در زمینهی تحلیل اسناد و بینایی کامپیوتر - همراه بوده، به یک رویداد مهم تبدیل شده و محققان، مهندسان دانشگاههای معتبر، مؤسسات تحقیقاتی و شرکتهای فناوری مانند دانشگاه تسینگهوا، گروه هیوندای موتور و تنسنت را به خود جذب کرده است... وظایف RRC به گونهای طراحی شده است که پیشرفت فناوری را ارتقا دهد و ارتباط نزدیکی با مسائل عملی از ترجمه، مدیریت دادههای سازمانی گرفته تا تحلیل شهری و پردازش اسناد تاریخی داشته باشد.
دکتر دانگ مین توان، مدیر CMC ATI، اظهار داشت: «ظرفیت تحقیقاتی تیم CMC از طریق یک زمین بازی معتبر جهانی مانند RRC تأیید شده است. ما مفتخریم که تنها در مدت کوتاهی، این تیم میتواند به رتبه بالایی دست یابد و شانه به شانه نامهای بزرگ کشورهای توسعهیافته بایستد. مهمتر از همه، این نشان روشنی از توانایی تسلط بر فناوری برای حل مشکلات خاص ویتنام و زمینههای تخصصی در ویتنام است.»
CATI-VLM با OCR سنتی متفاوت است، زیرا نه تنها کاراکترها را استخراج میکند، بلکه لایههای چندگانه اطلاعات را نیز درک میکند: محتوای متن، عناصر غیرمتنی (کادرهای تیک، کادرهای انتخاب، نمودارها، امضاها، فرمولها)، طرحبندی (ساختار صفحه، جداول، فرمها) و سبک (فونتها، هایلایتها و غیره). این مدل میتواند به سؤالات بصری مطرحشده روی تصاویر سند، مشابه ChatGPT، بدون نیاز به یادگیری فرمهای خاص از قبل، پاسخ دهد.
به نقل از روزنامه نیوز اند پیپل
منبع: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051






نظر (0)