Рейтинг RRC у категорії DocVQA 6/2025.
У контексті цифрової трансформації та трансформації застосувань штучного інтелекту у В'єтнамі, технологія OCR (оптичного розпізнавання символів) відіграє дедалі важливішу роль в оцифруванні документів, автоматизації бізнес-процесів, економії коштів та підвищенні ефективності управління. Однак, враховуючи особливості в'єтнамської мови з акцентами та почерком, проблема розпізнавання не обмежується лише «читанням слів», а вимагає від моделі здатності всебічно розуміти контекст.
Нещодавно Інститут застосування технологій CMC (CMC ATI) оголосив про модель CATI-VLM (візуальне розуміння документів), розроблену дослідницькою групою на основі великого сховища даних об'ємом 5 ТБ. Ця модель випередила багатьох міжнародних конкурентів і потрапила до 12 найкращих у світі та 1-го місця у В'єтнамі в рейтингу, щойно оголошеному конкурсом Robust Reading Competition (RRC) у червні 2025 року в категорії «Візуальні відповіді на запитання щодо документів» (DocVQA).
Змагання з читання Robust Reading Competition (RRC) – це престижний науковий майданчик (https://rrc.cvc.uab.es/), організований Центром комп’ютерного зору (CVC) Автономного університету Барселони (UAB) Іспанія, престижним дослідницьким центром у світі в галузі комп’ютерного зору.
Конкурс було започатковано у 2011 році та проводиться щорічно в рамках Міжнародної конференції з аналізу та розпізнавання тексту (ICDAR) – одного з провідних світових форумів у галузі комп’ютерного зору. Конкурс залучає велику кількість дослідників та інженерів з університетів, дослідницьких інститутів та великих технологічних корпорацій, таких як Університет Цінхуа, Hyundai Motor Group, Tencent... Проблеми RRC покликані сприяти технологічному прогресу, тісно пов’язані з практичними проблемами від перекладу, управління корпоративними даними до міського аналізу та обробки історичних документів.
Д-р Данг Мінь Туан, директор CMC ATI, поділився: «Ми дуже раді, що дослідницький потенціал команди CMC був підтверджений завдяки престижному світовому майданчику, такому як RRC. За короткий час дослідницька група досягла високих рейтингів, демонструючи свою міжнародну конкурентоспроможність серед відомих імен з розвинених країн. Що ще важливіше, це чітка демонстрація здатності опанувати технології для вирішення конкретних проблем В'єтнаму та спеціалізованих галузей у В'єтнамі».
Доктор Данг Мінь Туан, директор CMC ATI.
CATI-VLM відрізняється від традиційного OCR тим, що він не лише витягує символи, але й розуміє кілька шарів інформації: текстовий контент, нетекстові елементи (галочки, прапорці, діаграми, підписи, формули), макет (структуру сторінки, таблиці, форми) та стиль (шрифти, виділення тощо). Модель може відповідати на візуальні запитання, поставлені на зображеннях документів, подібно до ChatGPT, без необхідності попереднього вивчення конкретних форм.
Примітно, що в рейтингу RRC CATI-VLM, маючи лише 3 мільярди параметрів, досяг найвищої точності в 4/7 наборах даних, перевершивши багато моделей Big Tech, таких як Deepseek (27 мільярдів параметрів), GPT-4 Vision Turbo + Amazon Textract OCR (топ-34) або Baidu (топ-22).
Це досягнення також демонструє практичний підхід, зосереджений на оволодінні основними технологіями, оптимізації моделі відповідно до умов інфраструктури В'єтнаму, а не на гонитві за масштабом параметрів.
Зразок заяви про вступ до коледжу
Текст розпізнано з рукописного введення на зображенні вище.
Пан Нгуєн Чунг Чінь, голова ради директорів, виконавчий голова CMC Technology Group, наголосив: «Це результат понад десяти років наполегливих інвестицій у технологічні дослідження та розробки (R&D). Високі досягнення CMC на міжнародному технологічному майданчику підтверджують стратегію оволодіння в'єтнамськими технологіями в поєднанні з орієнтацією на трансформацію штучного інтелекту та вихід на світовий ринок. Ми вважаємо, що в'єтнамський інтелект цілком здатний стояти пліч-о-пліч зі світовими великими технологічними компаніями, створюючи гідне місце на світовій технологічній карті».
CATI-VLM буде застосовано в ланцюжку продуктів екосистеми C.OpenAI, включаючи: віртуального помічника CLS для перегляду юридичних документів, CMC SmartDoc - платформу для цифрового перетворення документів, систему управління знаннями CMC KMS, систему автоматичної звітності для розумних офісів та додатки Agentic Documents нового покоління.
КУАНГ ХУЙ
Джерело: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Коментар (0)