Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC atteint le top 12 mondial en reconnaissance de texte

Le modèle CATI-VLM (Visual Document Understanding) développé par le CMC Technology Application Institute (CMC ATI) a dépassé de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans les classements récemment annoncés par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Classement RRC dans la catégorie DocVQA 6/2025.
Classement RRC dans la catégorie DocVQA 6/2025.

Dans le contexte de la transformation numérique et des applications d'intelligence artificielle au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métiers, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des spécificités du vietnamien, avec ses accents et son écriture manuscrite, le problème de reconnaissance ne se limite pas à la « lecture des mots », mais exige que le modèle soit capable de comprendre le contexte de manière exhaustive.

Récemment, le CMC Technology Application Institute (CMC ATI) a noncé le modèle CATI-VLM (Visual Document Understanding) - développé par l'équipe de recherche à partir d'un grand entrepôt de données de 5 To, surpassant de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans le classement qui vient d'être annoncé par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) est un prestigieux terrain de jeu scientifique (https://rrc.cvc.uab.es/) organisé par le Computer Vision Center (CVC) de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux au monde dans le domaine de la vision par ordinateur.

Le concours a été lancé en 2011 et se déroule chaque année dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des principaux forums mondiaux dans le domaine de la vision par ordinateur. Il attire un grand nombre de chercheurs et d'ingénieurs issus d'universités, d'instituts de recherche et de grandes entreprises technologiques telles que l'Université Tsinghua, Hyundai Motor Group et Tencent. Les problèmes du RRC visent à promouvoir le progrès technologique, en lien étroit avec des problématiques pratiques telles que la traduction, la gestion des données d'entreprise, l'analyse urbaine et le traitement de documents historiques.

Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que la capacité de recherche de l'équipe du CMC ait été confirmée par un prestigieux concours international comme le RRC. En peu de temps, l'équipe de recherche atteint des classements élevés, démontrant sa compétitivité internationale face aux grands noms des pays développés. Plus important encore, il s'agit d'une démonstration claire de la capacité à maîtriser la technologie pour résoudre des problèmes spécifiques au Vietnam et dans des domaines spécialisés au Vietnam. »

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg
Dr Dang Minh Tuan, directeur du CMC ATI.

CATI-VLM diffère de l'OCR traditionnel en ce qu'il extrait non seulement les caractères, mais comprend également plusieurs couches d'information : contenu, éléments non textuels (cas à cocher, graphiques, signatures, formulaires), mise en page (structure de page, tableaux, formulaires) et style (polices, surlignages, etc.). Le modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans avoir à apprendre de formulaires spécifiques au préalable.

Notamment, dans le classement RRC, CATI-VLM avec seulement 3 milliards de paramètres une déclaration est plus grande précision dans 4/7 ensembles de données, surpassant de nombreux modèles Big Tech tels que Deepseek (27 milliards de paramètres), GPT-4 Vision Turbo + Amazon Texttract OCR (top 34) ou Baidu (top 22).

Cette réalisation démontre également une approche pratique, axée sur la maîtrise de la technologie de base, optimisant le modèle pour l'adaptateur aux conditions d'infrastructure du Vietnam au lieu de rechercher l'échelle des paramètres.

hinh-2.jpg
Exemple de formulaire de demande d'admission à l'université
hinh-3.jpg
Le texte a été reconnu à partir de l'écriture manuscrite dans l'image ci-dessus.

M. Nguyen Trung Chinh, énoncé de concept et déclaration de CMC Technology Group, a souligné : « C'est le fruit de plus d'une décennie d'investissements constants dans la recherche et le développement technologique (R&D). Les excellents résultats de CMC sur le marché technologique international confirment la stratégie de maîtrise de la technologie vietnamienne, conjuguée à l'orientation vers la transformation de l'IA et à l'entrée sur le marché mondial. Nous sommes convaincus que les services de renseignement vietnamiens sont pleinement capables de rivaliser avec les géants de la technologie mondiale et de se tailler une place de choix sur la scène technologique mondiale. »

CATI-VLM sera appliqué dans la chaîne de produits de l'écosystème C.OpenAI, notamment : l'assistant virtuel CLS pour la révision des documents juridiques, CMC SmartDoc - plate-forme de conversion de documents numériques, le système de gestion des connaissances CMC KMS, le système de reporting automatique pour les bureaux intelligents et les applications Agentic Documents de nouvelle génération.

Source : https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Comment (0)

No data
No data

Même catégorie

Saveur de la région
Magnifique levier de soleil sur les mers du Vietnam
L'arc majestueux de la grotte de Tu Lan
Thé au lotus - Un cadeau parfumé des Hanoïens

Même auteur

Patrimoine

Chiffre

Entreprise

No videos available

Nouveau

Système politique

Lieu

Produit