В контексте цифровой трансформации и трансформации приложений искусственного интеллекта во Вьетнаме технология OCR (оптическое распознавание символов) играет все более важную роль в оцифровке документов, автоматизации бизнес-процессов, экономии затрат и повышении эффективности управления. Однако, учитывая особенности вьетнамского языка с акцентами и почерком, проблема распознавания не ограничивается «чтением слов», а требует, чтобы модель обладала способностью всесторонне понимать контекст.
Недавно Институт применения технологий CMC (CMC ATI) анонсировал модель CATI-VLM (визуальное понимание документов), разработанную исследовательской группой на основе хранилища данных объемом 5 ТБ. Модель превзошла многих международных конкурентов и вошла в топ-12 в мире и топ-1 во Вьетнаме в рейтинге, недавно объявленном Robust Reading Competition (RRC) в июне 2025 года в категории «Визуальное понимание документов» (DocVQA).
Конкурс Robust Reading Competition (RRC) — это престижная научная площадка (https://rrc.cvc.uab.es/), организованная Центром компьютерного зрения (CVC) Автономного университета Барселоны (UAB) в Испании, престижным исследовательским центром в мире в области компьютерного зрения.
Конкурс был инициирован в 2011 году и проводится ежегодно в рамках Международной конференции по анализу и распознаванию текста (ICDAR) — одного из ведущих мировых форумов в области компьютерного зрения. Конкурс привлекает большое количество исследователей и инженеров из университетов, научно-исследовательских институтов и крупных технологических корпораций, таких как Университет Цинхуа, Hyundai Motor Group, Tencent и др. Задачи RRC призваны содействовать технологическому прогрессу, тесно связаны с практическими проблемами от перевода, управления корпоративными данными до анализа городской среды и обработки исторических документов.
Доктор Данг Минь Туан, директор CMC ATI, поделился: «Мы очень рады, что исследовательский потенциал команды CMC был подтвержден на такой престижной мировой площадке, как RRC. За короткое время исследовательская группа достигла высоких рейтингов, продемонстрировав свою международную конкурентоспособность с крупными именами из развитых стран. Что еще важнее, это наглядная демонстрация способности осваивать технологии для решения конкретных проблем вьетнамских и специализированных областей во Вьетнаме».

CATI-VLM отличается от традиционного OCR тем, что он не только извлекает символы, но и понимает несколько слоев информации: текстовое содержимое, нетекстовые элементы (флажки, чекбоксы, диаграммы, подписи, формулы), макет (структура страницы, таблицы, формы) и стиль (шрифты, выделения и т. д.). Модель может отвечать на визуальные вопросы, заданные на изображениях документов, подобно ChatGPT, без необходимости заранее изучать конкретные формы.
Примечательно, что в рейтинге RRC CATI-VLM с 3 миллиардами параметров достигла наивысшей точности в 4/7 наборах данных, превзойдя многие модели крупных технологических компаний, такие как Deepseek (27 миллиардов параметров), GPT-4 Vision Turbo + Amazon Textract OCR (топ-34) или Baidu (топ-22).
Достижение также демонстрирует практический подход, сосредоточенный на освоении основных технологий и оптимизации модели в соответствии с инфраструктурными условиями Вьетнама, а не погоню за масштабом параметров.


Г-н Нгуен Чунг Чинь, председатель совета директоров, исполнительный председатель CMC Technology Group, подчеркнул: «Это результат более чем десятилетних постоянных инвестиций в технологические исследования и разработки (НИОКР). Высокие достижения CMC на международной технологической площадке подтверждают стратегию освоения вьетнамских технологий в сочетании с ориентацией на трансформацию ИИ и выходом на мировой рынок. Мы считаем, что вьетнамская разведка вполне способна встать плечом к плечу с мировыми Big Tech, создав достойную позицию на мировой технологической карте».
CATI-VLM будет применяться в цепочке продуктов экосистемы C.OpenAI, включая: виртуального помощника CLS для просмотра юридических документов, CMC SmartDoc — платформу преобразования цифровых документов, систему управления знаниями CMC KMS, автоматическую систему отчетности для умных офисов и новое поколение приложений Agentic Documents.
Источник: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Комментарий (0)