Classificação RRC na categoria DocVQA 6/2025.
No contexto da transformação digital e da transformação das aplicações de inteligência artificial no Vietnã, que está em plena expansão, a tecnologia OCR (Reconhecimento Óptico de Caracteres) desempenha um papel cada vez mais importante na digitalização de documentos, na automação de processos de negócios, na redução de custos e na melhoria da eficiência da gestão. No entanto, com as características do vietnamita, como sotaques e caligrafia, o problema do reconhecimento não se limita à "leitura de palavras", mas exige que o modelo tenha a capacidade de compreender o contexto de forma abrangente.
Recentemente, o CMC Technology Application Institute (CMC ATI) anunciou o modelo CATI-VLM (Visual Document Understanding) - desenvolvido pela equipe de pesquisa a partir de um grande data warehouse de 5 TB, superando muitos concorrentes internacionais e alcançando o top 12 do mundo e o top 1 do Vietnã no ranking recém-anunciado pela Robust Reading Competition (RRC) em junho de 2025 na categoria Document Visual Question Answering (DocVQA).
O Robust Reading Competition (RRC) é um prestigiado evento científico (https://rrc.cvc.uab.es/) organizado pelo Computer Vision Center (CVC) da Universitat Autònoma de Barcelona (UAB), Espanha, uma prestigiada instalação de pesquisa no mundo na área de visão computacional.
A competição foi iniciada em 2011 e é realizada anualmente no âmbito da Conferência Internacional sobre Análise e Reconhecimento de Texto (ICDAR) – um dos principais fóruns mundiais na área de visão computacional. A competição atrai um grande número de pesquisadores e engenheiros de universidades, institutos de pesquisa e grandes empresas de tecnologia, como a Universidade Tsinghua, Hyundai Motor Group, Tencent... Os problemas do RRC são elaborados para promover o progresso tecnológico, intimamente ligados a problemas práticos, desde tradução e gerenciamento de dados corporativos até análise urbana e processamento de documentos históricos.
O Dr. Dang Minh Tuan, Diretor do CMC ATI, declarou: "Estamos muito satisfeitos que a capacidade de pesquisa da equipe do CMC tenha sido confirmada por um ambiente global de prestígio como o RRC. Em pouco tempo, a equipe de pesquisa alcançou altas classificações, demonstrando sua competitividade internacional com grandes nomes de países desenvolvidos. Mais importante ainda, esta é uma demonstração clara da capacidade de dominar a tecnologia para resolver problemas específicos da língua vietnamita e de áreas especializadas no Vietnã."
Dr. Dang Minh Tuan, Diretor do CMC ATI.
O CATI-VLM difere do OCR tradicional, pois não apenas extrai caracteres, mas também compreende múltiplas camadas de informação: conteúdo textual, elementos não textuais (caixas de seleção, caixas de seleção, gráficos, assinaturas, fórmulas), layout (estrutura da página, tabelas, formulários) e estilo (fontes, realces, etc.). O modelo pode responder a perguntas visuais feitas em imagens de documentos, semelhante ao ChatGPT, sem a necessidade de aprender formulários específicos previamente.
Notavelmente, no ranking RRC, o CATI-VLM com apenas 3 bilhões de parâmetros alcançou a maior precisão em conjuntos de dados 4/7, superando muitos modelos de Big Tech como Deepseek (27 bilhões de parâmetros), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) ou Baidu (top 22).
A conquista também mostra uma abordagem prática, com foco no domínio da tecnologia central, otimizando o modelo para se adequar às condições de infraestrutura do Vietnã, em vez de perseguir a escala de parâmetros.
Modelo de formulário de inscrição para admissão em faculdade
O texto foi reconhecido pela caligrafia na imagem acima.
O Sr. Nguyen Trung Chinh, Presidente do Conselho de Administração e Presidente Executivo do CMC Technology Group, enfatizou: "Este é o resultado de mais de uma década de investimento persistente em pesquisa e desenvolvimento (P&D) de tecnologia. As altas conquistas da CMC no cenário tecnológico internacional confirmam a estratégia de dominar a tecnologia vietnamita, aliada à orientação para a Transformação da IA e à entrada no mercado global. Acreditamos que a inteligência vietnamita é plenamente capaz de se equiparar às grandes empresas de tecnologia globais, criando uma posição de destaque no mapa tecnológico mundial."
O CATI-VLM será aplicado na cadeia de produtos do ecossistema C.OpenAI, incluindo: assistente virtual CLS para revisão de documentos jurídicos, CMC SmartDoc - plataforma de conversão de documentos digitais, sistema de gerenciamento de conhecimento CMC KMS, sistema de relatórios automáticos para escritórios inteligentes e aplicativos Agentic Documents de nova geração.
QUANG HUY
Fonte: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Comentário (0)