رتبهبندی RRC در ردهبندی DocVQA 6/2025.
در زمینه تحول دیجیتال و تحول در کاربرد هوش مصنوعی در ویتنام که به شدت در حال وقوع است، فناوری OCR (تشخیص نوری حروف) نقش بسیار مهمی در دیجیتالی کردن اسناد، خودکارسازی فرآیندهای تجاری، صرفهجویی در هزینهها و بهبود بهرهوری مدیریت ایفا میکند. با این حال، با توجه به ویژگیهای ویتنامیها با لهجهها و دستخط، مشکل تشخیص به «خواندن کلمات» محدود نمیشود، بلکه مستلزم آن است که مدل توانایی درک جامع زمینه را داشته باشد.
اخیراً، موسسه کاربرد فناوری CMC (CMC ATI) مدل CATI-VLM (درک بصری اسناد) را معرفی کرد - که توسط تیم تحقیقاتی از یک انبار داده بزرگ ۵ ترابایتی توسعه داده شده است و با پیشی گرفتن از بسیاری از رقبای بینالمللی، در رتبهبندی اعلام شده توسط مسابقه خواندن قدرتمند (RRC) در ژوئن ۲۰۲۵ در بخش پاسخ به سوالات بصری اسناد (DocVQA) به جمع ۱۲ نفر برتر جهان و ۱ نفر برتر ویتنام رسید.
مسابقهی «خواندن قدرتمند» (RRC) یک عرصهی علمی معتبر است (https://rrc.cvc.uab.es/) که توسط مرکز بینایی کامپیوتر (CVC) دانشگاه خودمختار بارسلونا (UAB) اسپانیا، یک مرکز تحقیقاتی معتبر در جهان در زمینهی بینایی کامپیوتر، سازماندهی شده است.
این مسابقه در سال ۲۰۱۱ آغاز شد و سالانه در چارچوب کنفرانس بینالمللی تحلیل و تشخیص متن (ICDAR) - یکی از انجمنهای پیشرو جهان در زمینه بینایی کامپیوتر - برگزار میشود. این مسابقه تعداد زیادی از محققان و مهندسان را از دانشگاهها، مؤسسات تحقیقاتی و شرکتهای بزرگ فناوری مانند دانشگاه چینهوا، گروه هیوندای موتور، تنسنت... جذب میکند. مسائل RRC برای ارتقای پیشرفت فناوری طراحی شدهاند و ارتباط نزدیکی با مسائل عملی از ترجمه، مدیریت دادههای سازمانی گرفته تا تحلیل شهری و پردازش اسناد تاریخی دارند.
دکتر دانگ مین توان، مدیر CMC ATI، اظهار داشت: «ما بسیار خوشحالیم که ظرفیت تحقیقاتی تیم CMC از طریق یک زمین بازی معتبر جهانی مانند RRC تأیید شده است. در مدت زمان کوتاهی، تیم تحقیقاتی به رتبههای بالایی دست یافته و رقابت بینالمللی خود را با نامهای بزرگ کشورهای توسعهیافته نشان داده است. مهمتر از همه، این نشانهای آشکار از توانایی تسلط بر فناوری برای حل مشکلات خاص زبان ویتنامی و زمینههای تخصصی در ویتنام است.»
دکتر Dang Minh Tuan، مدیر CMC ATI.
CATI-VLM با OCR سنتی متفاوت است، زیرا نه تنها کاراکترها را استخراج میکند، بلکه لایههای چندگانه اطلاعات را نیز درک میکند: محتوای متن، عناصر غیرمتنی (کادرهای تیک، کادرهای انتخاب، نمودارها، امضاها، فرمولها)، طرحبندی (ساختار صفحه، جداول، فرمها) و سبک (فونتها، هایلایتها و غیره). این مدل میتواند به سؤالات بصری مطرحشده روی تصاویر سند، مشابه ChatGPT، بدون نیاز به یادگیری فرمهای خاص از قبل، پاسخ دهد.
نکته قابل توجه این است که در رتبهبندی RRC، CATI-VLM با تنها ۳ میلیارد پارامتر، بالاترین دقت را در ۴/۷ مجموعه داده به دست آورد و از بسیاری از مدلهای Big Tech مانند Deepseek (۲۷ میلیارد پارامتر)، GPT-4 Vision Turbo + Amazon Textract OCR (رتبه ۳۴) یا Baidu (رتبه ۲۲) پیشی گرفت.
این دستاورد همچنین یک رویکرد عملی را نشان میدهد که بر تسلط بر فناوری اصلی و بهینهسازی مدل برای مطابقت با شرایط زیرساختی ویتنام به جای دنبال کردن مقیاس پارامتری تمرکز دارد.
نمونه فرم درخواست پذیرش دانشگاه
متن از روی دستخط موجود در تصویر بالا قابل تشخیص است.
آقای نگوین ترونگ چین، رئیس هیئت مدیره و رئیس اجرایی گروه فناوری CMC، تأکید کرد: «این نتیجه بیش از یک دهه سرمایهگذاری مداوم در تحقیق و توسعه فناوری (R&D) است. دستاوردهای بالای CMC در عرصه بینالمللی فناوری، استراتژی تسلط بر فناوری ویتنام را همراه با جهتگیری تحول هوش مصنوعی و ورود به بازار جهانی تأیید میکند. ما معتقدیم که هوش ویتنامی کاملاً قادر است شانه به شانه شرکتهای بزرگ فناوری جهانی بایستد و جایگاه شایستهای در نقشه فناوری جهان ایجاد کند.»
CATI-VLM در زنجیره محصولات اکوسیستم C.OpenAI، شامل موارد زیر، اعمال خواهد شد: دستیار مجازی CLS برای بررسی اسناد حقوقی، CMC SmartDoc - پلتفرم تبدیل اسناد دیجیتال، سیستم مدیریت دانش CMC KMS، سیستم گزارشدهی خودکار برای دفاتر هوشمند و برنامههای کاربردی Agentic Documents نسل جدید.
کوانگ هوی
منبع: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
نظر (0)