Рейтинг RRC у категорії DocVQA, червень 2025 року.
На тлі швидкої цифрової трансформації та впровадження штучного інтелекту у В'єтнамі, технологія OCR (оптичного розпізнавання символів) відіграє дедалі важливішу роль в оцифруванні документів, автоматизації бізнес-процесів, економії коштів та підвищенні ефективності управління. Однак, враховуючи унікальні характеристики в'єтнамської мови, включаючи її акценти та почерк, проблема розпізнавання виходить за рамки простого «читання» символів; вона вимагає моделі, здатної всебічно розуміти контекст.
Нещодавно Інститут прикладних технологій CMC (CMC ATI) оголосив про модель CATI-VLM (візуальне розуміння документів), розроблену його дослідницькою групою на основі великого сховища даних об'ємом 5 ТБ, яка перевершила багатьох міжнародних конкурентів і потрапила до 12 найкращих у світі та 1-го місця у В'єтнамі за рейтингом, опублікованим Robust Reading Competition (RRC) у червні 2025 року в категорії «Візуальні відповіді на запитання щодо документів» (DocVQA).
Конкурс Robust Reading Competition (RRC) – це престижний науковий конкурс (https://rrc.cvc.uab.es/), організований Центром комп’ютерного зору (CVC) Автономного університету Барселони (UAB), Іспанія, всесвітньо відомою дослідницькою установою в галузі комп’ютерного зору.
Започаткований у 2011 році, конкурс проводиться щорічно в рамках Міжнародної конференції з аналізу та розпізнавання тексту (ICDAR) – одного з провідних світових форумів у галузі комп'ютерного зору. Конкурс залучає численних дослідників та інженерів з університетів, дослідницьких інститутів та великих технологічних корпорацій, таких як Університет Цінхуа, Hyundai Motor Group та Tencent. Задачі RRC розроблені для сприяння технологічному прогресу, тісно пов'язаному з практичними проблемами, починаючи від перекладу та управління корпоративними даними і закінчуючи міським аналізом та обробкою історичних документів.
Д-р Данг Мінь Туан, директор CMC ATI, поділився: «Ми раді, що дослідницькі можливості команди CMC були підтверджені завдяки престижному світовому конкурсу, такому як RRC. За короткий час дослідницька група досягла високого рейтингу, продемонструвавши міжнародну конкурентоспроможність серед відомих компаній з розвинених країн. Що ще важливіше, це чітке свідчення нашої здатності опанувати технології для вирішення конкретних проблем, пов’язаних з в’єтнамською мовою та спеціалізованими галузями у В’єтнамі».
Доктор Данг Мінь Туан, директор CMC ATI.
CATI-VLM відрізняється від традиційного OCR тим, що він не лише витягує символи, але й розуміє кілька шарів інформації: текстовий вміст, нетекстові елементи (галочки, прапорці, діаграми, підписи, формули), макет (структуру сторінки, таблиці, форми) та стиль (шрифти, підсвічування тощо). Модель може відповідати на візуальні запитання, поставлені на зображеннях документів, подібно до ChatGPT, без необхідності попередньо вивчати кожну конкретну форму.
Примітно, що в рейтингу RRC CATI-VLM, маючи лише 3 мільярди параметрів, досяг найвищої точності в 4 з 7 наборів даних, перевершивши багато моделей Big Tech, таких як Deepseek (27 мільярдів параметрів), GPT-4 Vision Turbo + Amazon Textract OCR (топ-34) та Baidu (топ-22).
Це досягнення також демонструє практичний підхід, що зосереджується на оволодінні основними технологіями та оптимізації моделей відповідно до умов інфраструктури В'єтнаму, а не на гонитві за масштабованістю та параметрами.
Приклад заяви про вступ до університету
Текст було ідентифіковано за почерком на зображенні вище.
Пан Нгуєн Чунг Чінь, голова правління та виконавчий голова CMC Technology Group, наголосив: «Це результат більш ніж десятиліття наполегливих інвестицій у дослідження та розробки (R&D) технологій. Високі досягнення CMC на міжнародній технологічній арені підтверджують нашу стратегію освоєння в'єтнамських технологій у поєднанні з нашою орієнтацією на трансформацію штучного інтелекту та розширення на світовий ринок. Ми вважаємо, що в'єтнамський інтелект цілком здатний конкурувати з глобальними великими технологічними компаніями, створюючи гідне місце на світовій технологічній карті».
CATI-VLM буде застосовано в екосистемі продуктів C.OpenAI, включаючи: віртуальний помічник CLS для перегляду юридичних документів, CMC SmartDoc – платформу для цифрового перетворення документів, систему управління знаннями CMC KMS, автоматизовану систему звітності для розумних офісів та додатки Agentic Documents наступного покоління.
КУАНГ ХУЙ
Джерело: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Коментар (0)