RRC:s ranking i DocVQA-kategorin, juni 2025.
Mitt i den snabba digitala omvandlingen och införandet av artificiell intelligens i Vietnam spelar OCR-teknik (optisk teckenigenkänning) en allt viktigare roll i digitalisering av dokument, automatisering av affärsprocesser, kostnadsbesparingar och förbättrad ledningseffektivitet. Med tanke på det vietnamesiska språkets unika egenskaper, inklusive dess accenter och handstil, går igenkänningsproblemet dock utöver att bara "läsa" tecken; det kräver en modell som kan förstå sammanhanget på ett heltäckande sätt.
Nyligen tillkännagav CMC Institute of Applied Technology (CMC ATI) CATI-VLM-modellen (Visual Document Understanding) – utvecklad av deras forskarteam från ett stort datalager på 5 TB – och överträffade därmed många internationella konkurrenter och nådde topp 12 globalt och topp 1 i Vietnam i rankningen som publicerades av Robust Reading Competition (RRC) i juni 2025 i kategorin Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) är en prestigefylld vetenskaplig tävling (https://rrc.cvc.uab.es/) som organiseras av Computer Vision Centre (CVC) vid Autònoma de Barcelona University (UAB), Spanien, en världskänd forskningsinstitution inom datorseende.
Tävlingen, som inleddes 2011, hålls årligen inom ramen för International Conference on Text Analysis and Recognition (ICDAR) – ett av världens ledande forum inom datorseende. Tävlingen lockar ett stort antal forskare och ingenjörer från universitet, forskningsinstitut och stora teknikföretag som Tsinghua University, Hyundai Motor Group och Tencent. RRC-problemen är utformade för att främja tekniska framsteg, nära kopplade till praktiska problem som sträcker sig från översättning och hantering av företagsdata till urban analys och historisk dokumentbehandling.
Dr. Dang Minh Tuan, chef för CMC ATI, delade: "Vi är glada över att CMC-teamets forskningskapacitet har bekräftats genom en prestigefylld global tävling som RRC. På kort tid har forskargruppen uppnått en hög ranking, vilket visar internationell konkurrenskraft med stora namn från utvecklade länder. Ännu viktigare är att detta är ett tydligt bevis på vår förmåga att bemästra teknik för att lösa specifika problem relaterade till det vietnamesiska språket och specialiserade områden i Vietnam."
Dr. Dang Minh Tuan, chef för CMC ATI.
CATI-VLM skiljer sig från traditionell OCR genom att den inte bara extraherar tecken utan också förstår flera lager av information: textinnehåll, icke-textelement (kryssrutor, kryssrutor, diagram, signaturer, formler), layout (sidstruktur, tabeller, formulär) och stil (teckensnitt, markeringar etc.). Modellen kan svara på visuella frågor som ställs på dokumentbilder, liknande ChatGPT, utan att behöva lära sig varje specifik form i förväg.
Det är värt att notera att CATI-VLM, med endast 3 miljarder parametrar, uppnådde den högsta noggrannheten i 4 av 7 datamängder på RRC-rankningen, och överträffade många Big Tech-modeller som Deepseek (27 miljarder parametrar), GPT-4 Vision Turbo + Amazon Textract OCR (topp 34) och Baidu (topp 22).
Prestationen visar också på ett praktiskt tillvägagångssätt, med fokus på att bemästra kärnteknologier och optimera modeller för att passa Vietnams infrastrukturförhållanden, snarare än att jaga efter skalbarhet och parametrar.
Exempel på ansökningsblankett för universitetsantagning
Texten har identifierats från handstilen i bilden ovan.
Nguyen Trung Chinh, styrelseordförande och arbetande ordförande för CMC Technology Group, betonade: "Detta är resultatet av mer än ett decennium av ihållande investeringar i forskning och utveckling (FoU) av teknologi. CMC:s höga prestationer på den internationella teknologiarenan bekräftar vår strategi att bemästra vietnamesisk teknologi, i kombination med vår inriktning på AI-transformation och expansion till den globala marknaden. Vi tror att vietnamesisk underrättelsetjänst är fullt kapabel att konkurrera med globala Big Tech och skapa en värdig position på världskartan inom teknologi."
CATI-VLM kommer att tillämpas i C.OpenAI-ekosystemet av produkter, inklusive: den virtuella assistenten CLS för granskning av juridiska dokument, CMC SmartDoc - en plattform för digital dokumenttransformation, kunskapshanteringssystemet CMC KMS, ett automatiserat rapporteringssystem för smarta kontor och nästa generations Agentic Documents-applikationer.
QUANG HUY
Källa: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Kommentar (0)