RRCs rangering i DocVQA-kategorien, juni 2025.
Midt i den raske digitale transformasjonen og bruken av kunstig intelligens i Vietnam, spiller OCR-teknologi (optisk tegngjenkjenning) en stadig viktigere rolle i digitalisering av dokumenter, automatisering av forretningsprosesser, kostnadsbesparelser og forbedret ledelseseffektivitet. Gitt de unike egenskapene til det vietnamesiske språket, inkludert aksenter og håndskrift, går gjenkjenningsproblemet imidlertid utover å bare «lese» tegn; det krever en modell som er i stand til å forstå konteksten på en helhetlig måte.
Nylig annonserte CMC Institute of Applied Technology (CMC ATI) CATI-VLM-modellen (Visual Document Understanding) – utviklet av forskerteamet deres fra et stort datalager på 5 TB – og overgikk dermed mange internasjonale konkurrenter. Modellen nådde dermed topp 12 globalt og topp 1 i Vietnam på rangeringen publisert av Robust Reading Competition (RRC) i juni 2025 i kategorien Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) er en prestisjefylt vitenskapelig konkurranse (https://rrc.cvc.uab.es/) organisert av Computer Vision Centre (CVC) ved Autònoma de Barcelona University (UAB) i Spania, en verdenskjent forskningsinstitusjon innen datasyn.
Konkurransen, som ble startet i 2011, arrangeres årlig innenfor rammen av den internasjonale konferansen om tekstanalyse og -gjenkjenning (ICDAR) – et av verdens ledende fora innen datasyn. Konkurransen tiltrekker seg en rekke forskere og ingeniører fra universiteter, forskningsinstitutter og store teknologiselskaper som Tsinghua University, Hyundai Motor Group og Tencent. RRC-problemene er utformet for å fremme teknologisk fremgang, nært knyttet til praktiske problemer som spenner fra oversettelse og bedriftsdatahåndtering til byanalyse og historisk dokumentbehandling.
Dr. Dang Minh Tuan, direktør for CMC ATI, delte: «Vi er glade for at CMC-teamets forskningskapasitet har blitt bekreftet gjennom en prestisjefylt global konkurranse som RRC. På kort tid har forskerteamet oppnådd en høy rangering, noe som viser internasjonal konkurranseevne med store navn fra utviklede land. Enda viktigere er dette et tydelig bevis på vår evne til å mestre teknologi for å løse spesifikke problemer knyttet til vietnamesisk språk og spesialiserte felt i Vietnam.»
Dr. Dang Minh Tuan, direktør for CMC ATI.
CATI-VLM skiller seg fra tradisjonell OCR ved at den ikke bare trekker ut tegn, men også forstår flere lag med informasjon: tekstinnhold, ikke-tekstelementer (avkrysningsbokser, avmerkingsbokser, diagrammer, signaturer, formler), layout (sidestruktur, tabeller, skjemaer) og stil (fonter, utheving osv.). Modellen kan svare på visuelle spørsmål stilt på dokumentbilder, på samme måte som ChatGPT, uten å måtte lære hver spesifikke form på forhånd.
Det er verdt å merke seg at CATI-VLM, med bare 3 milliarder parametere, oppnådde høyest nøyaktighet i 4 av 7 datasett på RRC-rangeringen, og overgikk mange Big Tech-modeller som Deepseek (27 milliarder parametere), GPT-4 Vision Turbo + Amazon Textract OCR (topp 34) og Baidu (topp 22).
Prestasjonen demonstrerer også en praktisk tilnærming, med fokus på å mestre kjerneteknologier og optimalisere modeller som passer Vietnams infrastrukturforhold, i stedet for å jage etter skalerbarhetsparametere.
Eksempel på søknadsskjema for opptak til universitet
Teksten er identifisert fra håndskriften i bildet ovenfor.
Nguyen Trung Chinh, styreleder og konsernsjef i CMC Technology Group, understreket: «Dette er resultatet av mer enn et tiår med vedvarende investeringer i forskning og utvikling (FoU) av teknologi. CMCs høye prestasjoner på den internasjonale teknologiarenaen bekrefter vår strategi om å mestre vietnamesisk teknologi, kombinert med vår orientering mot AI-transformasjon og ekspansjon i det globale markedet. Vi tror at vietnamesisk etterretning er fullt i stand til å konkurrere med globale Big Tech og skape en verdig posisjon på verdens teknologikart.»
CATI-VLM vil bli brukt i C.OpenAI-økosystemet av produkter, inkludert: den virtuelle assistenten CLS for gjennomgang av juridiske dokumenter, CMC SmartDoc – en plattform for digital dokumenttransformasjon, kunnskapsstyringssystemet CMC KMS, et automatisert rapporteringssystem for smarte kontorer og neste generasjons Agentic Documents-applikasjoner.
QUANG HUY
Kilde: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Kommentar (0)