La transformation numérique par l'IA s'accélère au Vietnam, et la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents. Photo : Illustration
Récemment, le CMC Technology Application Institute (CMC ATI) a annoncé que le modèle CATI-VLM (Visual Document Understanding) développé par l'équipe de recherche à partir d'un vaste entrepôt de données de 5 To a atteint le Top 12 mondial et le Top 1 au Vietnam dans le classement récemment publié par le Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
M. Dang Minh Tuan, directeur de CMC ATI, a déclaré : « Nous sommes ravis que les compétences de recherche de l’équipe CMC aient été reconnues par une plateforme internationale aussi prestigieuse que le RRC. Nous sommes fiers qu’en si peu de temps, l’équipe ait pu atteindre un tel niveau, se mesurant ainsi aux plus grands noms des pays développés. Plus important encore, cela témoigne clairement de sa capacité à maîtriser les technologies permettant de résoudre des problèmes spécifiques aux Vietnamiens et dans des domaines spécialisés au Vietnam. »
Dans le contexte de la transformation numérique et de la transformation par l'IA qui s'opèrent fortement au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion.
Cependant, compte tenu des caractéristiques du vietnamien, notamment son accent et son écriture manuscrite, le problème de la reconnaissance ne se limite pas à la « lecture des mots », mais exige que le modèle soit capable de comprendre le contexte dans son ensemble.
CATI-VLM diffère de l'OCR traditionnel en ce qu'il n'extrait pas seulement des caractères, mais comprend également plusieurs couches d'information : contenu textuel, éléments non textuels (cases à cocher, graphiques, signatures, formules), mise en page (structure de la page, tableaux, formulaires) et style (polices, surlignages…).
Le modèle peut répondre à des questions visuelles posées sur des images de documents, comme ChatGPT, sans avoir besoin d'apprendre des formulaires spécifiques au préalable.
Le Robust Reading Competition (RRC) est un terrain de jeu scientifique prestigieux, organisé par le Computer Vision Center de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux dans le monde dans le domaine de la vision par ordinateur.
Lancée en 2011, et se déroulant en parallèle de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR) – l'un des plus grands forums mondiaux sur l'analyse de documents et la vision par ordinateur –, cette compétition est devenue un événement majeur, attirant des chercheurs et des ingénieurs d'universités prestigieuses, d'instituts de recherche et d'entreprises technologiques telles que l'Université Tsinghua, le groupe Hyundai Motor et Tencent.
Les missions du RRC sont conçues pour stimuler le progrès technologique, en lien avec des problèmes concrets allant de la traduction et de la gestion des données d'entreprise à l'analyse urbaine et au traitement des documents historiques.
Du travail à la parentalité : comment les PDG du secteur technologique utilisent l’IA au quotidien. De Jensen Huang à Tim Cook, les PDG les plus influents du secteur technologique mondial tirent parti de l’IA dans leur vie de tous les jours.
Source : https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html






Comment (0)