Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC classé 12e mondial en reconnaissance de texte

Le modèle CATI-VLM (Visual Document Understanding) développé par le CMC Technology Application Institute (CMC ATI) a surpassé de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans les classements récemment annoncés par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Classement RRC dans la catégorie DocVQA 6/2025.

Classement RRC dans la catégorie DocVQA 6/2025.

Dans le contexte de forte transformation numérique et de transformation des applications d'intelligence artificielle au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des spécificités du vietnamien, avec ses accents et son écriture manuscrite, la problématique de la reconnaissance ne se limite pas à la lecture des mots, mais exige que le modèle soit capable de comprendre le contexte de manière exhaustive.

Récemment, le CMC Technology Application Institute (CMC ATI) a annoncé le modèle CATI-VLM (Visual Document Understanding) - développé par l'équipe de recherche à partir d'un grand entrepôt de données de 5 To, surpassant de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans le classement qui vient d'être annoncé par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) est un prestigieux terrain de jeu scientifique (https://rrc.cvc.uab.es/) organisé par le Computer Vision Center (CVC) de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux au monde dans le domaine de la vision par ordinateur.

Le concours a été lancé en 2011 et se déroule chaque année dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des principaux forums mondiaux dans le domaine de la vision par ordinateur. Il attire un grand nombre de chercheurs et d'ingénieurs issus d'universités, d'instituts de recherche et de grandes entreprises technologiques telles que l'Université Tsinghua, le groupe Hyundai Motor et Tencent. Les problèmes du RRC visent à promouvoir le progrès technologique et sont étroitement liés à des problématiques pratiques telles que la traduction, la gestion des données d'entreprise, l'analyse urbaine et le traitement de documents historiques.

Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que la capacité de recherche de l'équipe du CMC ait été confirmée par un prestigieux concours international comme le RRC. En peu de temps, l'équipe de recherche a atteint un classement élevé, démontrant sa compétitivité internationale face aux grands noms des pays développés. Plus important encore, cela démontre clairement sa capacité à maîtriser la technologie pour résoudre des problèmes spécifiques à la langue vietnamienne et à des domaines spécialisés au Vietnam. »

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

Dr Dang Minh Tuan, directeur du CMC ATI.

CATI-VLM diffère de l'OCR traditionnel en ce qu'il extrait non seulement les caractères, mais comprend également plusieurs couches d'information : contenu textuel, éléments non textuels (cases à cocher, graphiques, signatures, formules), mise en page (structure de page, tableaux, formulaires) et style (polices, surlignage, etc.). Le modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans avoir à apprendre de formulaires spécifiques au préalable.

Notamment, dans le classement RRC, CATI-VLM avec seulement 3 milliards de paramètres a atteint la plus grande précision dans 4/7 ensembles de données, surpassant de nombreux modèles Big Tech tels que Deepseek (27 milliards de paramètres), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) ou Baidu (top 22).

Cette réussite démontre également une approche pratique, axée sur la maîtrise de la technologie de base, optimisant le modèle pour l'adapter aux conditions d'infrastructure du Vietnam au lieu de rechercher l'échelle des paramètres.

image-2.jpg

Exemple de formulaire de demande d'admission à l'université

image-3.jpg

Le texte a été reconnu à partir de l'écriture manuscrite dans l'image ci-dessus.

M. Nguyen Trung Chinh, président du conseil d'administration et président exécutif de CMC Technology Group, a souligné : « Ceci est le fruit de plus d'une décennie d'investissements constants dans la recherche et le développement technologiques (R&D). Les excellents résultats de CMC sur le marché technologique international confirment la stratégie de maîtrise de la technologie vietnamienne, conjuguée à l'orientation vers la transformation de l'IA et à l'entrée sur le marché mondial. Nous sommes convaincus que le renseignement vietnamien est pleinement capable de rivaliser avec les géants de la technologie mondiale et de se tailler une place de choix sur la scène technologique mondiale. »

CATI-VLM sera appliqué dans la chaîne de produits de l'écosystème C.OpenAI, notamment : l'assistant virtuel CLS pour la révision des documents juridiques, CMC SmartDoc - plate-forme de conversion de documents numériques, le système de gestion des connaissances CMC KMS, le système de reporting automatique pour les bureaux intelligents et les applications Agentic Documents de nouvelle génération.

QUANG HUY

Source : https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Comment (0)

No data
No data

Même sujet

Même catégorie

71 ans après la libération, Hanoi conserve sa beauté patrimoniale dans le flux moderne
71e anniversaire de la Journée de la libération de la capitale : susciter l'enthousiasme pour que Hanoï entre résolument dans la nouvelle ère
Les zones inondées de Lang Son vues depuis un hélicoptère
Image de nuages ​​sombres « sur le point de s'effondrer » à Hanoï

Même auteur

Patrimoine

Chiffre

Entreprise

No videos available

Événements actuels

Système politique

Locale

Produit