Dans le contexte de la transformation numérique et de l'intelligence artificielle (IA) au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des particularités du vietnamien, notamment son accent et son écriture manuscrite, le problème de la reconnaissance ne se limite pas à la simple lecture des mots ; le modèle doit être capable de comprendre pleinement le contexte.
Récemment, le CMC Technology Application Institute (CMC ATI) a annoncé que le modèle CATI-VLM (Visual Document Understanding) développé par l'équipe de recherche à partir d'un vaste entrepôt de données de 5 To a atteint le Top 12 mondial et le Top 1 au Vietnam dans le classement récemment publié par le Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
Classement RRC dans la catégorie DocVQA 6/2025.
Le concours Robust Reading Competition (RRC) (https://rrc.cvc.uab.es/) est un prestigieux terrain d'expérimentation scientifique organisé par le Centre de vision par ordinateur (CVC) de l'Université autonome de Barcelone (UAB), en Espagne, un centre de recherche de renommée mondiale dans le domaine de la vision par ordinateur. Lancé en 2011 et s'inscrivant dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des plus grands forums mondiaux consacrés à l'analyse de documents et à la vision par ordinateur, ce concours est devenu un événement majeur, attirant des chercheurs et des ingénieurs d'universités prestigieuses, d'instituts de recherche et d'entreprises technologiques telles que l'Université Tsinghua, le groupe Hyundai Motor et Tencent. Les défis du RRC visent à promouvoir le progrès technologique, en lien étroit avec des problématiques concrètes allant de la traduction et la gestion des données d'entreprise à l'analyse urbaine et au traitement des documents historiques.
Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « La capacité de recherche de l’équipe du CMC est confirmée par la prestigieuse plateforme internationale qu’est le RRC. Nous sommes fiers qu’en si peu de temps, l’équipe ait pu atteindre un classement aussi élevé, rivalisant avec les plus grands noms des pays développés. Plus important encore, cela démontre clairement sa capacité à maîtriser la technologie pour résoudre des problèmes spécifiques aux Vietnamiens et dans des domaines spécialisés au Vietnam. »
CATI-VLM se distingue des systèmes de reconnaissance optique de caractères (OCR) traditionnels par sa capacité à extraire non seulement des caractères, mais aussi à comprendre plusieurs niveaux d'information : le contenu textuel, les éléments non textuels (cases à cocher, graphiques, signatures, formules), la mise en page (structure de la page, tableaux, formulaires) et le style (polices, surlignages, etc.). Ce modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans nécessiter d'apprentissage préalable de formulaires spécifiques.
Selon le journal News and People
Source : https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051










Comment (0)