RRC-rangering i DocVQA-kategori 6/2025.
I forbindelse med digital transformasjon og transformasjon av kunstig intelligens-applikasjoner i Vietnam, spiller OCR-teknologi (optisk tegngjenkjenning) en stadig viktigere rolle i digitalisering av dokumenter, automatisering av forretningsprosesser, kostnadsbesparelser og forbedring av ledelseseffektiviteten. Med vietnamesisk språks særtrekk med aksenter og håndskrift stopper imidlertid ikke gjenkjenningsproblemet ved å «lese ord», men krever at modellen har evnen til å forstå konteksten fullstendig.
Nylig annonserte CMC Technology Application Institute (CMC ATI) CATI-VLM-modellen (Visual Document Understanding) – utviklet av forskerteamet fra et stort datalager på 5 TB. Modellen overgikk mange internasjonale konkurrenter og nådde topp 12 i verden og topp 1 i Vietnam på rangeringen som nettopp ble annonsert av Robust Reading Competition (RRC) i juni 2025 i kategorien Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) er en prestisjefylt vitenskapelig lekeplass (https://rrc.cvc.uab.es/) organisert av Computer Vision Center (CVC) ved Universitat Autònoma de Barcelona (UAB) Spania, et prestisjefylt forskningssenter i verden innen datasyn.
Konkurransen ble startet i 2011 og arrangeres årlig innenfor rammen av den internasjonale konferansen om tekstanalyse og -gjenkjenning (ICDAR) – et av verdens ledende fora innen datasyn. Konkurransen tiltrekker seg et stort antall forskere og ingeniører fra universiteter, forskningsinstitutter og store teknologiselskaper som Tsinghua University, Hyundai Motor Group, Tencent... RRCs problemer er utformet for å fremme teknologisk fremgang, nært knyttet til praktiske problemer fra oversettelse, bedriftsdatahåndtering til byanalyse og historisk dokumentbehandling.
Dr. Dang Minh Tuan, direktør for CMC ATI, uttalte: «Vi er svært fornøyde med at CMC-teamets forskningskapasitet har blitt bekreftet gjennom en prestisjefylt global lekeplass som RRC. På kort tid har forskerteamet oppnådd høye rangeringer, noe som demonstrerer sin internasjonale konkurranseevne med store navn fra utviklede land. Enda viktigere er dette en tydelig demonstrasjon av evnen til å mestre teknologi for å løse spesifikke problemer i vietnamesisk og spesialiserte felt i Vietnam.»
Dr. Dang Minh Tuan, direktør for CMC ATI.
CATI-VLM skiller seg fra tradisjonell OCR ved at den ikke bare trekker ut tegn, men også forstår flere lag med informasjon: tekstinnhold, ikke-tekstelementer (avkrysningsbokser, avmerkingsbokser, diagrammer, signaturer, formler), layout (sidestruktur, tabeller, skjemaer) og stil (fonter, uthevinger osv.). Modellen kan svare på visuelle spørsmål stilt på dokumentbilder, på samme måte som ChatGPT, uten å måtte lære spesifikke skjemaer på forhånd.
Det er verdt å merke seg at CATI-VLM med bare 3 milliarder parametere oppnådde den høyeste nøyaktigheten i 4/7-datasett på RRC-rangeringene, og overgikk mange Big Tech-modeller som Deepseek (27 milliarder parametere), GPT-4 Vision Turbo + Amazon Textract OCR (topp 34) eller Baidu (topp 22).
Prestasjonen viser også en praktisk tilnærming, med fokus på å mestre kjerneteknologi og optimalisere modellen for å passe Vietnams infrastrukturforhold i stedet for å jage parameterskala.
Eksempel på søknadsskjema for opptak til høyskole
Tekst er gjenkjent fra håndskrift i bildet ovenfor.
Nguyen Trung Chinh, styreleder og konsernsjef i CMC Technology Group, understreket: «Dette er resultatet av mer enn et tiår med vedvarende investeringer i teknologisk forskning og utvikling (FoU). CMCs høye prestasjoner på den internasjonale teknologiarenaen bekrefter strategien om å mestre vietnamesisk teknologi, kombinert med fokus på AI-transformasjon og inntreden i det globale markedet. Vi tror at vietnamesisk etterretning er fullt i stand til å stå skulder ved skulder med globale Big Tech-selskaper og skape en verdig posisjon på verdens teknologikart.»
CATI-VLM vil bli brukt i produktkjeden til C.OpenAI-økosystemet, inkludert: CLS virtuell assistent for gjennomgang av juridiske dokumenter, CMC SmartDoc – digital dokumentkonverteringsplattform, CMC KMS kunnskapsstyringssystem, automatisk rapporteringssystem for smarte kontorer og ny generasjon Agentic Documents-applikasjoner.
QUANG HUY
Kilde: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Kommentar (0)