Classement RRC dans la catégorie DocVQA 6/2025.
Dans le contexte de la transformation numérique et de l'essor des applications d'intelligence artificielle au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des spécificités de la langue vietnamienne, notamment son accent et son écriture manuscrite, le problème de la reconnaissance ne se limite pas à la simple lecture des mots ; le modèle doit être capable de comprendre pleinement le contexte.
Récemment, le CMC Technology Application Institute (CMC ATI) a annoncé que le modèle CATI-VLM (Visual Document Understanding) – développé par l'équipe de recherche à partir d'un vaste entrepôt de données de 5 To – a surpassé de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 vietnamien dans le classement récemment publié par le Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) est un terrain de jeu scientifique prestigieux (https://rrc.cvc.uab.es/) organisé par le Computer Vision Center (CVC) de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux dans le monde dans le domaine de la vision par ordinateur.
Créé en 2011, ce concours se tient chaque année dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des forums mondiaux de référence en vision par ordinateur. Il attire de nombreux chercheurs et ingénieurs issus d'universités, d'instituts de recherche et de grandes entreprises technologiques telles que l'Université Tsinghua, le groupe Hyundai Motor et Tencent. Les problèmes proposés par le RRC visent à favoriser le progrès technologique et sont étroitement liés à des problématiques concrètes, allant de la traduction automatique à la gestion des données d'entreprise, en passant par l'analyse urbaine et le traitement de documents historiques.
Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que les compétences de recherche de l’équipe du CMC aient été reconnues par une plateforme internationale aussi prestigieuse que le RRC. En très peu de temps, l’équipe de recherche a atteint un excellent classement, démontrant ainsi sa compétitivité internationale face à des acteurs majeurs des pays développés. Plus important encore, cela témoigne clairement de sa capacité à maîtriser les technologies permettant de résoudre des problèmes spécifiques liés à la langue vietnamienne et à des domaines spécialisés au Vietnam. »
Dr Dang Minh Tuan, directeur du CMC ATI.
CATI-VLM se distingue des systèmes de reconnaissance optique de caractères (OCR) traditionnels par sa capacité à extraire non seulement des caractères, mais aussi à comprendre plusieurs niveaux d'information : le contenu textuel, les éléments non textuels (cases à cocher, graphiques, signatures, formules), la mise en page (structure de la page, tableaux, formulaires) et le style (polices, surlignages, etc.). Ce modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans nécessiter d'apprentissage préalable de formulaires spécifiques.
Notamment, dans le classement RRC, CATI-VLM avec seulement 3 milliards de paramètres a atteint la plus grande précision dans 4/7 ensembles de données, surpassant de nombreux modèles Big Tech tels que Deepseek (27 milliards de paramètres), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) ou Baidu (top 22).
Cette réussite témoigne également d'une approche pragmatique, axée sur la maîtrise des technologies de base et l'optimisation du modèle pour l'adapter aux conditions infrastructurelles du Vietnam, plutôt que sur la recherche d'une augmentation des paramètres.
Exemple de formulaire de demande d'admission à l'université
Le texte a été reconnu grâce à l'écriture manuscrite figurant sur l'image ci-dessus.
M. Nguyen Trung Chinh, président du conseil d'administration et président exécutif du groupe CMC Technology, a souligné : « Ce succès est le fruit de plus d'une décennie d'investissements constants dans la recherche et le développement technologiques. Les excellents résultats obtenus par CMC sur la scène technologique internationale confirment la pertinence de sa stratégie de maîtrise des technologies vietnamiennes, conjuguée à une orientation vers la transformation numérique par l'IA et à une volonté de conquérir le marché mondial. Nous sommes convaincus que l'intelligence vietnamienne est pleinement capable de rivaliser avec les géants mondiaux de la tech et de se hisser au rang des acteurs majeurs de la scène technologique mondiale. »
CATI-VLM sera appliqué dans la chaîne de produits de l'écosystème C.OpenAI, notamment : l'assistant virtuel CLS pour la révision de documents juridiques, CMC SmartDoc – plateforme de conversion de documents numériques, CMC KMS – système de gestion des connaissances, système de reporting automatique pour les bureaux intelligents et applications Agentic Documents de nouvelle génération.
QUANG HUY
Source : https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Comment (0)