Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC входить до 12 найкращих світових компаній з розпізнавання тексту.

Модель CATI-VLM (візуальне розуміння документів), розроблена Інститутом прикладних технологій CMC (CMC ATI), перевершила багатьох міжнародних конкурентів, досягнувши 12 найкращих у світі та 1-го місця у В'єтнамі в рейтингу, нещодавно оголошеному конкурсом Robust Reading Competition (RRC) у червні 2025 року в категорії «Візуальне розуміння документів» (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Рейтинг RRC у категорії DocVQA, червень 2025 року.

Рейтинг RRC у категорії DocVQA, червень 2025 року.

На тлі швидкої цифрової трансформації та впровадження штучного інтелекту у В'єтнамі, технологія OCR (оптичного розпізнавання символів) відіграє дедалі важливішу роль в оцифруванні документів, автоматизації бізнес-процесів, економії коштів та підвищенні ефективності управління. Однак, враховуючи унікальні характеристики в'єтнамської мови, включаючи її акценти та почерк, проблема розпізнавання виходить за рамки простого «читання» символів; вона вимагає моделі, здатної всебічно розуміти контекст.

Нещодавно Інститут прикладних технологій CMC (CMC ATI) оголосив про модель CATI-VLM (візуальне розуміння документів), розроблену його дослідницькою групою на основі великого сховища даних об'ємом 5 ТБ, яка перевершила багатьох міжнародних конкурентів і потрапила до 12 найкращих у світі та 1-го місця у В'єтнамі за рейтингом, опублікованим Robust Reading Competition (RRC) у червні 2025 року в категорії «Візуальні відповіді на запитання щодо документів» (DocVQA).

Конкурс Robust Reading Competition (RRC) – це престижний науковий конкурс (https://rrc.cvc.uab.es/), організований Центром комп’ютерного зору (CVC) Автономного університету Барселони (UAB), Іспанія, всесвітньо відомою дослідницькою установою в галузі комп’ютерного зору.

Започаткований у 2011 році, конкурс проводиться щорічно в рамках Міжнародної конференції з аналізу та розпізнавання тексту (ICDAR) – одного з провідних світових форумів у галузі комп'ютерного зору. Конкурс залучає численних дослідників та інженерів з університетів, дослідницьких інститутів та великих технологічних корпорацій, таких як Університет Цінхуа, Hyundai Motor Group та Tencent. Задачі RRC розроблені для сприяння технологічному прогресу, тісно пов'язаному з практичними проблемами, починаючи від перекладу та управління корпоративними даними і закінчуючи міським аналізом та обробкою історичних документів.

Д-р Данг Мінь Туан, директор CMC ATI, поділився: «Ми раді, що дослідницькі можливості команди CMC були підтверджені завдяки престижному світовому конкурсу, такому як RRC. За короткий час дослідницька група досягла високого рейтингу, продемонструвавши міжнародну конкурентоспроможність серед відомих компаній з розвинених країн. Що ще важливіше, це чітке свідчення нашої здатності опанувати технології для вирішення конкретних проблем, пов’язаних з в’єтнамською мовою та спеціалізованими галузями у В’єтнамі».

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

Доктор Данг Мінь Туан, директор CMC ATI.

CATI-VLM відрізняється від традиційного OCR тим, що він не лише витягує символи, але й розуміє кілька шарів інформації: текстовий вміст, нетекстові елементи (галочки, прапорці, діаграми, підписи, формули), макет (структуру сторінки, таблиці, форми) та стиль (шрифти, підсвічування тощо). Модель може відповідати на візуальні запитання, поставлені на зображеннях документів, подібно до ChatGPT, без необхідності попередньо вивчати кожну конкретну форму.

Примітно, що в рейтингу RRC CATI-VLM, маючи лише 3 мільярди параметрів, досяг найвищої точності в 4 з 7 наборів даних, перевершивши багато моделей Big Tech, таких як Deepseek (27 мільярдів параметрів), GPT-4 Vision Turbo + Amazon Textract OCR (топ-34) та Baidu (топ-22).

Це досягнення також демонструє практичний підхід, що зосереджується на оволодінні основними технологіями та оптимізації моделей відповідно до умов інфраструктури В'єтнаму, а не на гонитві за масштабованістю та параметрами.

зображення-2.jpg

Приклад заяви про вступ до університету

зображення-3.jpg

Текст було ідентифіковано за почерком на зображенні вище.

Пан Нгуєн Чунг Чінь, голова правління та виконавчий голова CMC Technology Group, наголосив: «Це результат більш ніж десятиліття наполегливих інвестицій у дослідження та розробки (R&D) технологій. Високі досягнення CMC на міжнародній технологічній арені підтверджують нашу стратегію освоєння в'єтнамських технологій у поєднанні з нашою орієнтацією на трансформацію штучного інтелекту та розширення на світовий ринок. Ми вважаємо, що в'єтнамський інтелект цілком здатний конкурувати з глобальними великими технологічними компаніями, створюючи гідне місце на світовій технологічній карті».

CATI-VLM буде застосовано в екосистемі продуктів C.OpenAI, включаючи: віртуальний помічник CLS для перегляду юридичних документів, CMC SmartDoc – платформу для цифрового перетворення документів, систему управління знаннями CMC KMS, автоматизовану систему звітності для розумних офісів та додатки Agentic Documents наступного покоління.

КУАНГ ХУЙ

Джерело: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Коментар (0)

Залиште коментар, щоб поділитися своїми почуттями!

У тій самій темі

У тій самій категорії

Того ж автора

Спадщина

Фігура

Бізнеси

Поточні події

Політична система

Місцевий

Продукт

Happy Vietnam
Гордий

Гордий

Звук флейти музиканта Ле Хоанга

Звук флейти музиканта Ле Хоанга

Печера Рай

Печера Рай