Classement du RRC dans la catégorie DocVQA, juin 2025.
Face à la transformation numérique rapide et à l'adoption de l'intelligence artificielle au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des caractéristiques uniques de la langue vietnamienne, notamment ses accents et son écriture manuscrite, le problème de la reconnaissance ne se limite pas à la simple « lecture » des caractères ; il requiert un modèle capable de comprendre pleinement le contexte.
Récemment, l'Institut de technologie appliquée CMC (CMC ATI) a annoncé que le modèle CATI-VLM (Visual Document Understanding) – développé par son équipe de recherche à partir d'un vaste entrepôt de données de 5 To – surpassait de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans le classement publié par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
Le Robust Reading Competition (RRC) est un concours scientifique prestigieux (https://rrc.cvc.uab.es/) organisé par le Computer Vision Centre (CVC) de l'Autònoma de Barcelona University (UAB), en Espagne, une institution de recherche de renommée mondiale dans le domaine de la vision par ordinateur.
Créé en 2011, ce concours se tient chaque année dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des forums mondiaux de référence en vision par ordinateur. Il attire de nombreux chercheurs et ingénieurs issus d'universités, d'instituts de recherche et de grandes entreprises technologiques telles que l'Université Tsinghua, le groupe Hyundai Motor et Tencent. Les problèmes du RRC visent à favoriser le progrès technologique et sont étroitement liés à des problématiques concrètes, allant de la traduction et la gestion des données d'entreprise à l'analyse urbaine et au traitement de documents historiques.
Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que les compétences de recherche de l’équipe du CMC aient été reconnues lors d’un concours international aussi prestigieux que le RRC. En peu de temps, l’équipe de recherche a obtenu un excellent classement, démontrant ainsi sa compétitivité internationale face aux plus grands noms des pays développés. Plus important encore, cela témoigne clairement de notre capacité à maîtriser les technologies permettant de résoudre des problèmes spécifiques liés à la langue vietnamienne et à des domaines spécialisés au Vietnam. »
Dr Dang Minh Tuan, directeur du CMC ATI.
CATI-VLM se distingue des systèmes de reconnaissance optique de caractères (OCR) traditionnels par sa capacité à extraire non seulement des caractères, mais aussi à comprendre plusieurs niveaux d'information : le contenu textuel, les éléments non textuels (cases à cocher, graphiques, signatures, formules), la mise en page (structure de la page, tableaux, formulaires) et le style (polices, surlignage, etc.). Ce modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans nécessiter d'apprentissage préalable de chaque forme spécifique.
Notamment, dans le classement RRC, CATI-VLM, avec seulement 3 milliards de paramètres, a atteint la plus grande précision dans 4 des 7 ensembles de données, surpassant de nombreux modèles Big Tech tels que Deepseek (27 milliards de paramètres), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) et Baidu (top 22).
Cette réussite témoigne également d'une approche pragmatique, axée sur la maîtrise des technologies de base et l'optimisation des modèles pour les adapter aux conditions infrastructurelles du Vietnam, plutôt que sur la recherche de l'évolutivité et des paramètres.
Exemple de formulaire de demande d'admission à l'université
Le texte a été identifié grâce à l'écriture manuscrite figurant sur l'image ci-dessus.
M. Nguyen Trung Chinh, président du conseil d'administration et président exécutif du groupe CMC Technology, a souligné : « Ce succès est le fruit de plus d'une décennie d'investissements constants dans la recherche et le développement technologiques. Les excellents résultats obtenus par CMC sur la scène technologique internationale confirment la pertinence de notre stratégie de maîtrise des technologies vietnamiennes, conjuguée à notre orientation vers la transformation par l'IA et notre expansion sur le marché mondial. Nous sommes convaincus que l'intelligence vietnamienne est pleinement capable de rivaliser avec les géants mondiaux de la tech et de se tailler une place de choix sur la carte technologique mondiale. »
CATI-VLM sera appliqué dans l'écosystème de produits C.OpenAI, notamment : l'assistant virtuel CLS pour la révision de documents juridiques, CMC SmartDoc – une plateforme de transformation numérique de documents, le système de gestion des connaissances CMC KMS, un système de reporting automatisé pour les bureaux intelligents et les applications Agentic Documents de nouvelle génération.
QUANG HUY
Source : https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Comment (0)