Штучний інтелект «Зроблено у В'єтнамі» потрапив до 12 найкращих у світі

Згідно з оцінкою Robust Reading Competition (RRC – престижного наукового майданчика у світі), модель розпізнавання зображень та тексту CATI-VLM, продукт «Зроблено у В'єтнамі», входить до 12 найкращих у світі.

Tạp chí Doanh Nghiệp•03/07/2025

У контексті цифрової трансформації та трансформації штучного інтелекту (ШІ) у В'єтнамі, технологія OCR (оптичного розпізнавання символів) відіграє дедалі важливішу роль в оцифруванні документів, автоматизації бізнес-процесів, економії коштів та підвищенні ефективності управління. Однак, враховуючи особливості в'єтнамської мови з акцентами та почерком, проблема розпізнавання не обмежується лише «читанням слів», а вимагає, щоб модель мала здатність всебічно розуміти контекст.

Нещодавно Інститут застосування технологій CMC (CMC ATI) оголосив про модель CATI-VLM (візуальне розуміння документів), розроблену дослідницькою групою на основі великого сховища даних об'ємом 5 ТБ, яка потрапила до 12 найкращих у світі та 1-го місця у В'єтнамі в рейтингу, щойно оголошеному конкурсом Robust Reading Competition (RRC) у червні 2025 року в категорії «Візуальні відповіді на запитання щодо документів» (DocVQA).

Підпис до фотографії

Рейтинг RRC у категорії DocVQA 6/2025.

Конкурс Robust Reading Competition (RRC) – це престижний науковий майданчик (https://rrc.cvc.uab.es/), організований Центром комп'ютерного зору (CVC) Автономного університету Барселони (UAB) Іспанія, престижним дослідницьким центром у світі в галузі комп'ютерного зору. Започаткований у 2011 році, завжди супроводжуючи Міжнародну конференцію з аналізу та розпізнавання тексту ICDAR – один з найбільших у світі форумів з аналізу документів та комп'ютерного зору, конкурс став важливою подією, що залучає дослідників, інженерів з престижних університетів, дослідницьких інститутів та технологічних компаній, таких як Університет Цінхуа, Hyundai Motor Group та Tencent... Завдання RRC спрямовані на сприяння технологічному прогресу, тісно пов'язаному з практичними проблемами – від перекладу та управління корпоративними даними до міського аналізу та обробки історичних документів.

Д-р Данг Мінь Туан, директор CMC ATI, поділився: «Дослідницький потенціал команди CMC підтверджується завдяки престижному світовому майданчику, такому як RRC. Ми пишаємося тим, що за короткий час команда змогла досягти високого рейтингу, стоячи пліч-о-пліч з відомими іменами з розвинених країн. Що ще важливіше, це чітка демонстрація здатності опанувати технології для вирішення конкретних проблем В'єтнаму та спеціалізованих галузей у В'єтнамі».

CATI-VLM відрізняється від традиційного OCR тим, що він не лише витягує символи, але й розуміє кілька шарів інформації: текстовий вміст, нетекстові елементи (галочки, прапорці, діаграми, підписи, формули), макет (структуру сторінки, таблиці, форми) та стиль (шрифти, виділення тощо). Модель може відповідати на візуальні запитання, поставлені на зображеннях документів, подібно до ChatGPT, без необхідності попереднього вивчення конкретних форм.

За даними газети «Новини та люди»

Джерело: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051