No contexto da transformação digital e da transformação da inteligência artificial (IA) no Vietnã, a tecnologia OCR (reconhecimento óptico de caracteres) desempenha um papel cada vez mais importante na digitalização de documentos, na automatização de processos de negócios, na redução de custos e na melhoria da eficiência da gestão. No entanto, com as características do vietnamita, como sotaques e caligrafia, o problema do reconhecimento não se limita à "leitura de palavras", mas exige que o modelo tenha a capacidade de compreender o contexto de forma abrangente.
Recentemente, o CMC Technology Application Institute (CMC ATI) anunciou o modelo CATI-VLM (Visual Document Understanding) desenvolvido pela equipe de pesquisa a partir de um grande data warehouse de 5 TB, alcançando o Top 12 no mundo e o Top 1 no Vietnã no ranking recém-anunciado pela Robust Reading Competition (RRC) em junho de 2025 na categoria Document Visual Question Answering (DocVQA).
Classificação RRC na categoria DocVQA 6/2025.
A Competição Robusta de Leitura (RRC) é um prestigiado evento científico (https://rrc.cvc.uab.es/) organizado pelo Centro de Visão Computacional (CVC) da Universidade Autônoma de Barcelona (UAB), Espanha, um prestigiado centro de pesquisa mundial na área de visão computacional. Iniciada em 2011, sempre acompanhando a Conferência Internacional sobre Análise e Reconhecimento de Texto (ICDAR) – um dos maiores fóruns mundiais sobre análise de documentos e visão computacional –, a competição tornou-se um evento importante, atraindo pesquisadores, engenheiros de prestigiadas universidades, institutos de pesquisa e empresas de tecnologia, como a Universidade Tsinghua, Hyundai Motor Group e Tencent. As tarefas da RRC visam promover o progresso tecnológico, intimamente ligado a problemas práticos, desde tradução e gerenciamento de dados corporativos até análise urbana e processamento de documentos históricos.
O Dr. Dang Minh Tuan, Diretor do CMC ATI, declarou: "A capacidade de pesquisa da equipe do CMC é confirmada por um ambiente global de prestígio como o RRC. Estamos orgulhosos de que, em tão pouco tempo, a equipe tenha alcançado uma alta classificação, equiparando-se a grandes nomes de países desenvolvidos. Mais importante ainda, esta é uma demonstração clara da capacidade de dominar a tecnologia para resolver problemas específicos do Vietnã e de áreas especializadas no Vietnã."
O CATI-VLM difere do OCR tradicional, pois não apenas extrai caracteres, mas também compreende múltiplas camadas de informação: conteúdo textual, elementos não textuais (caixas de seleção, caixas de seleção, gráficos, assinaturas, fórmulas), layout (estrutura da página, tabelas, formulários) e estilo (fontes, realces, etc.). O modelo pode responder a perguntas visuais feitas em imagens de documentos, semelhante ao ChatGPT, sem a necessidade de aprender formulários específicos previamente.
De acordo com o jornal News and People
Fonte: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Comentário (0)