هوش مصنوعی «ساخت ویتنام» در رتبه ۱۲ جهان قرار گرفت

در زمینه تحول دیجیتال و تحول هوش مصنوعی (AI) در ویتنام، فناوری OCR (تشخیص نوری کاراکتر) نقش بسیار مهمی در دیجیتالی کردن اسناد، خودکارسازی فرآیندهای تجاری، صرفه‌جویی در هزینه‌ها و بهبود بهره‌وری مدیریت ایفا می‌کند. با این حال، با توجه به ویژگی‌های ویتنامی‌ها با لهجه‌ها و دست‌خط، مشکل تشخیص به «خواندن کلمات» محدود نمی‌شود، بلکه مستلزم آن است که مدل توانایی درک جامع زمینه را داشته باشد.

اخیراً، موسسه کاربرد فناوری CMC (CMC ATI) مدل CATI-VLM (درک بصری اسناد) را که توسط تیم تحقیقاتی از یک انبار داده بزرگ ۵ ترابایتی توسعه داده شده است، معرفی کرد و در رتبه‌بندی اعلام شده توسط مسابقه خواندن قدرتمند (RRC) در ژوئن ۲۰۲۵ در بخش پاسخ به سوالات بصری اسناد (DocVQA) به ۱۲ رتبه برتر جهان و ۱ رتبه برتر ویتنام رسید.

عنوان عکس

رتبه‌بندی RRC در رده‌بندی DocVQA 6/2025.

مسابقه‌ی خواندن قدرتمند (RRC) یک عرصه‌ی علمی معتبر است (https://rrc.cvc.uab.es/) که توسط مرکز بینایی کامپیوتر (CVC) دانشگاه خودمختار بارسلونا (UAB) اسپانیا، یک مرکز تحقیقاتی معتبر در جهان در زمینه‌ی بینایی کامپیوتر، سازماندهی شده است. این مسابقه که در سال ۲۰۱۱ آغاز شد و همواره با کنفرانس بین‌المللی تحلیل و تشخیص متن ICDAR - یکی از بزرگترین انجمن‌های جهان در زمینه‌ی تحلیل اسناد و بینایی کامپیوتر - همراه بوده، به یک رویداد مهم تبدیل شده و محققان، مهندسان دانشگاه‌های معتبر، مؤسسات تحقیقاتی و شرکت‌های فناوری مانند دانشگاه تسینگهوا، گروه هیوندای موتور و تنسنت را به خود جذب کرده است... وظایف RRC به گونه‌ای طراحی شده است که پیشرفت فناوری را ارتقا دهد و ارتباط نزدیکی با مسائل عملی از ترجمه، مدیریت داده‌های سازمانی گرفته تا تحلیل شهری و پردازش اسناد تاریخی داشته باشد.

دکتر دانگ مین توان، مدیر CMC ATI، اظهار داشت: «ظرفیت تحقیقاتی تیم CMC از طریق یک زمین بازی معتبر جهانی مانند RRC تأیید شده است. ما مفتخریم که تنها در مدت کوتاهی، این تیم می‌تواند به رتبه بالایی دست یابد و شانه به شانه نام‌های بزرگ کشورهای توسعه‌یافته بایستد. مهمتر از همه، این نشان روشنی از توانایی تسلط بر فناوری برای حل مشکلات خاص ویتنام و زمینه‌های تخصصی در ویتنام است.»

CATI-VLM با OCR سنتی متفاوت است، زیرا نه تنها کاراکترها را استخراج می‌کند، بلکه لایه‌های چندگانه اطلاعات را نیز درک می‌کند: محتوای متن، عناصر غیرمتنی (کادرهای تیک، کادرهای انتخاب، نمودارها، امضاها، فرمول‌ها)، طرح‌بندی (ساختار صفحه، جداول، فرم‌ها) و سبک (فونت‌ها، هایلایت‌ها و غیره). این مدل می‌تواند به سؤالات بصری مطرح‌شده روی تصاویر سند، مشابه ChatGPT، بدون نیاز به یادگیری فرم‌های خاص از قبل، پاسخ دهد.

به نقل از روزنامه نیوز اند پیپل

منبع: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051