O programa de IA "Make in Vietnam" está entre os 12 melhores do mundo.

No contexto da transformação digital e da inteligência artificial (IA) no Vietnã, a tecnologia OCR (reconhecimento óptico de caracteres) desempenha um papel cada vez mais importante na digitalização de documentos, na automatização de processos empresariais, na redução de custos e na melhoria da eficiência da gestão. No entanto, devido às características do vietnamita, com seus sotaques e caligrafia, o desafio do reconhecimento não se limita à simples leitura de palavras, exigindo que o modelo seja capaz de compreender o contexto de forma abrangente.

Recentemente, o Instituto de Aplicação de Tecnologia CMC (CMC ATI) anunciou que o modelo CATI-VLM (Visual Document Understanding), desenvolvido pela equipe de pesquisa a partir de um grande banco de dados de 5 TB, alcançou o 12º lugar no mundo e o 1º lugar no Vietnã no ranking divulgado pela Robust Reading Competition (RRC) em junho de 2025, na categoria de Resposta a Perguntas Visuais sobre Documentos (DocVQA).

Legenda da foto

Classificação RRC na categoria DocVQA 6/2025.

A Robust Reading Competition (RRC) é um prestigiado evento científico (https://rrc.cvc.uab.es/) organizado pelo Centro de Visão Computacional (CVC) da Universidade Autônoma de Barcelona (UAB), Espanha, uma instituição de pesquisa de renome mundial na área de visão computacional. Iniciada em 2011, sempre em paralelo à Conferência Internacional sobre Análise e Reconhecimento de Texto (ICDAR) – um dos maiores fóruns mundiais sobre análise de documentos e visão computacional –, a competição tornou-se um evento importante, atraindo pesquisadores, engenheiros de universidades de prestígio, institutos de pesquisa e empresas de tecnologia como a Universidade Tsinghua, o Grupo Hyundai Motor e a Tencent. As tarefas da RRC são concebidas para promover o progresso tecnológico, intimamente ligadas a problemas práticos que vão desde tradução e gestão de dados empresariais até análise urbana e processamento de documentos históricos.

O Dr. Dang Minh Tuan, Diretor do CMC ATI, afirmou: "A capacidade de pesquisa da equipe do CMC é comprovada por meio de um evento global de prestígio como o RRC. Temos orgulho de que, em tão pouco tempo, a equipe tenha alcançado uma posição de destaque, competindo de igual para igual com grandes nomes de países desenvolvidos. Mais importante ainda, isso demonstra claramente a capacidade de dominar a tecnologia para solucionar problemas específicos do Vietnã e áreas de especialização no país."

O CATI-VLM difere do OCR tradicional por não apenas extrair caracteres, mas também por compreender múltiplas camadas de informação: conteúdo textual, elementos não textuais (caixas de seleção, caixas de verificação, gráficos, assinaturas, fórmulas), layout (estrutura da página, tabelas, formulários) e estilo (fontes, realces, etc.). O modelo consegue responder a perguntas visuais feitas em imagens de documentos, de forma semelhante ao ChatGPT, sem precisar aprender formas específicas previamente.

Comentário (0)