Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC classificada em 12º lugar no mundo em reconhecimento de texto

O modelo CATI-VLM (Visual Document Understanding) desenvolvido pelo CMC Technology Application Institute (CMC ATI) superou muitos concorrentes internacionais e alcançou o top 12 do mundo e o top 1 do Vietnã no ranking anunciado recentemente pela Robust Reading Competition (RRC) em junho de 2025 na categoria Document Visual Question Answering (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Classificação RRC na categoria DocVQA 6/2025.

Classificação RRC na categoria DocVQA 6/2025.

No contexto da transformação digital e da transformação das aplicações de inteligência artificial no Vietnã, que está em plena expansão, a tecnologia OCR (Reconhecimento Óptico de Caracteres) desempenha um papel cada vez mais importante na digitalização de documentos, na automação de processos de negócios, na redução de custos e na melhoria da eficiência da gestão. No entanto, com as características do vietnamita, como sotaques e caligrafia, o problema do reconhecimento não se limita à "leitura de palavras", mas exige que o modelo tenha a capacidade de compreender o contexto de forma abrangente.

Recentemente, o CMC Technology Application Institute (CMC ATI) anunciou o modelo CATI-VLM (Visual Document Understanding) - desenvolvido pela equipe de pesquisa a partir de um grande data warehouse de 5 TB, superando muitos concorrentes internacionais e alcançando o top 12 do mundo e o top 1 do Vietnã no ranking recém-anunciado pela Robust Reading Competition (RRC) em junho de 2025 na categoria Document Visual Question Answering (DocVQA).

O Robust Reading Competition (RRC) é um prestigiado evento científico (https://rrc.cvc.uab.es/) organizado pelo Computer Vision Center (CVC) da Universitat Autònoma de Barcelona (UAB), Espanha, uma prestigiada instalação de pesquisa no mundo na área de visão computacional.

A competição foi iniciada em 2011 e é realizada anualmente no âmbito da Conferência Internacional sobre Análise e Reconhecimento de Texto (ICDAR) – um dos principais fóruns mundiais na área de visão computacional. A competição atrai um grande número de pesquisadores e engenheiros de universidades, institutos de pesquisa e grandes empresas de tecnologia, como a Universidade Tsinghua, Hyundai Motor Group, Tencent... Os problemas do RRC são elaborados para promover o progresso tecnológico, intimamente ligados a problemas práticos, desde tradução e gerenciamento de dados corporativos até análise urbana e processamento de documentos históricos.

O Dr. Dang Minh Tuan, Diretor do CMC ATI, declarou: "Estamos muito satisfeitos que a capacidade de pesquisa da equipe do CMC tenha sido confirmada por um ambiente global de prestígio como o RRC. Em pouco tempo, a equipe de pesquisa alcançou altas classificações, demonstrando sua competitividade internacional com grandes nomes de países desenvolvidos. Mais importante ainda, esta é uma demonstração clara da capacidade de dominar a tecnologia para resolver problemas específicos da língua vietnamita e de áreas especializadas no Vietnã."

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

Dr. Dang Minh Tuan, Diretor do CMC ATI.

O CATI-VLM difere do OCR tradicional, pois não apenas extrai caracteres, mas também compreende múltiplas camadas de informação: conteúdo textual, elementos não textuais (caixas de seleção, caixas de seleção, gráficos, assinaturas, fórmulas), layout (estrutura da página, tabelas, formulários) e estilo (fontes, realces, etc.). O modelo pode responder a perguntas visuais feitas em imagens de documentos, semelhante ao ChatGPT, sem a necessidade de aprender formulários específicos previamente.

Notavelmente, no ranking RRC, o CATI-VLM com apenas 3 bilhões de parâmetros alcançou a maior precisão em conjuntos de dados 4/7, superando muitos modelos de Big Tech como Deepseek (27 bilhões de parâmetros), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) ou Baidu (top 22).

A conquista também mostra uma abordagem prática, com foco no domínio da tecnologia central, otimizando o modelo para se adequar às condições de infraestrutura do Vietnã, em vez de perseguir a escala de parâmetros.

imagem-2.jpg

Modelo de formulário de inscrição para admissão em faculdade

imagem-3.jpg

O texto foi reconhecido pela caligrafia na imagem acima.

O Sr. Nguyen Trung Chinh, Presidente do Conselho de Administração e Presidente Executivo do CMC Technology Group, enfatizou: "Este é o resultado de mais de uma década de investimento persistente em pesquisa e desenvolvimento (P&D) de tecnologia. As altas conquistas da CMC no cenário tecnológico internacional confirmam a estratégia de dominar a tecnologia vietnamita, aliada à orientação para a Transformação da IA ​​e à entrada no mercado global. Acreditamos que a inteligência vietnamita é plenamente capaz de se equiparar às grandes empresas de tecnologia globais, criando uma posição de destaque no mapa tecnológico mundial."

O CATI-VLM será aplicado na cadeia de produtos do ecossistema C.OpenAI, incluindo: assistente virtual CLS para revisão de documentos jurídicos, CMC SmartDoc - plataforma de conversão de documentos digitais, sistema de gerenciamento de conhecimento CMC KMS, sistema de relatórios automáticos para escritórios inteligentes e aplicativos Agentic Documents de nova geração.

QUANG HUY

Fonte: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Comentário (0)

No data
No data

No mesmo tópico

Na mesma categoria

Na época de "caça" ao junco em Binh Lieu
No meio da floresta de mangue de Can Gio
Pescadores de Quang Ngai embolsam milhões de dongs todos os dias após ganharem na loteria com camarão
O vídeo da apresentação do traje nacional de Yen Nhi tem o maior número de visualizações no Miss Grand International

Do mesmo autor

Herança

Figura

Negócios

Hoang Thuy Linh traz o hit com centenas de milhões de visualizações para o palco do festival mundial

Eventos atuais

Sistema político

Local

Produto