Classificação RRC na categoria DocVQA 6/2025.
No contexto da transformação digital e da forte aplicação da inteligência artificial no Vietnã, a tecnologia OCR (Reconhecimento Óptico de Caracteres) desempenha um papel cada vez mais importante na digitalização de documentos, na automatização de processos empresariais, na redução de custos e na melhoria da eficiência da gestão. No entanto, devido às características do vietnamita, com seus sotaques e escrita à mão, o desafio do reconhecimento não se limita à simples leitura de palavras, exigindo que o modelo seja capaz de compreender o contexto de forma abrangente.
Recentemente, o Instituto de Aplicação de Tecnologia CMC (CMC ATI) anunciou o modelo CATI-VLM (Visual Document Understanding), desenvolvido pela equipe de pesquisa a partir de um grande banco de dados de 5 TB, superando muitos concorrentes internacionais e alcançando o top 12 mundial e o top 1 no Vietnã no ranking divulgado pela Robust Reading Competition (RRC) em junho de 2025, na categoria Document Visual Question Answering (DocVQA).
A Robust Reading Competition (RRC) é um prestigiado evento científico (https://rrc.cvc.uab.es/) organizado pelo Computer Vision Center (CVC) da Universitat Autònoma de Barcelona (UAB), Espanha, uma instituição de pesquisa de renome mundial na área de visão computacional.
A competição foi iniciada em 2011 e é realizada anualmente no âmbito da Conferência Internacional sobre Análise e Reconhecimento de Texto (ICDAR) – um dos principais fóruns mundiais na área de visão computacional. A competição atrai um grande número de pesquisadores e engenheiros de universidades, institutos de pesquisa e grandes empresas de tecnologia, como a Universidade Tsinghua, o Grupo Hyundai Motor e a Tencent. Os problemas da RRC são elaborados para promover o progresso tecnológico, estando intimamente ligados a problemas práticos que vão desde tradução e gestão de dados empresariais até análise urbana e processamento de documentos históricos.
O Dr. Dang Minh Tuan, Diretor do CMC ATI, declarou: "Estamos muito satisfeitos que a capacidade de pesquisa da equipe do CMC tenha sido reconhecida por meio de um prestigiado evento global como o RRC. Em pouco tempo, a equipe de pesquisa alcançou altas classificações, demonstrando sua competitividade internacional com grandes nomes de países desenvolvidos. Mais importante ainda, isso demonstra claramente a capacidade de dominar a tecnologia para solucionar problemas específicos da língua vietnamita e áreas especializadas no Vietnã."
Dr. Dang Minh Tuan, Diretor do CMC ATI.
O CATI-VLM difere do OCR tradicional por não apenas extrair caracteres, mas também por compreender múltiplas camadas de informação: conteúdo textual, elementos não textuais (caixas de seleção, caixas de verificação, gráficos, assinaturas, fórmulas), layout (estrutura da página, tabelas, formulários) e estilo (fontes, realces, etc.). O modelo consegue responder a perguntas visuais feitas em imagens de documentos, de forma semelhante ao ChatGPT, sem precisar aprender formas específicas previamente.
Notavelmente, no ranking RRC, o CATI-VLM, com apenas 3 bilhões de parâmetros, alcançou a maior precisão em 4 dos 7 conjuntos de dados, superando muitos modelos de grandes empresas de tecnologia, como Deepseek (27 bilhões de parâmetros), GPT-4 Vision Turbo + Amazon Textract OCR (entre os 34 melhores) ou Baidu (entre os 22 melhores).
A conquista também demonstra uma abordagem prática, com foco no domínio da tecnologia essencial e na otimização do modelo para se adequar às condições de infraestrutura do Vietnã, em vez de buscar a escalabilidade dos parâmetros.
Exemplo de Formulário de Inscrição para Admissão na Faculdade
O texto foi identificado a partir da caligrafia na imagem acima.
O Sr. Nguyen Trung Chinh, Presidente do Conselho de Administração e Presidente Executivo do Grupo CMC Technology, enfatizou: "Este é o resultado de mais de uma década de investimento constante em pesquisa e desenvolvimento (P&D) de tecnologia. As conquistas da CMC no cenário tecnológico internacional confirmam a estratégia de domínio da tecnologia vietnamita, aliada à orientação para a Transformação da IA e a entrada no mercado global. Acreditamos que a inteligência vietnamita é plenamente capaz de competir de igual para igual com as grandes empresas de tecnologia globais, conquistando uma posição de destaque no mapa tecnológico mundial."
A tecnologia CATI-VLM será aplicada na cadeia de produtos do ecossistema C.OpenAI, incluindo: o assistente virtual CLS para revisão de documentos jurídicos, o CMC SmartDoc - plataforma de conversão de documentos digitais, o sistema de gestão do conhecimento CMC KMS, o sistema de relatórios automáticos para escritórios inteligentes e as aplicações de Documentos Agentes de nova geração.
QUANG HUY
Fonte: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Comentário (0)