De ranking van RRC in de DocVQA-categorie, juni 2025.
Temidden van de snelle digitale transformatie en de toepassing van kunstmatige intelligentie in Vietnam speelt OCR (Optical Character Recognition) een steeds belangrijkere rol in de digitalisering van documenten, de automatisering van bedrijfsprocessen, kostenbesparingen en een verbeterde managementefficiëntie. Gezien de unieke kenmerken van de Vietnamese taal, waaronder de accenten en het handschrift, gaat het herkenningsprobleem echter verder dan alleen het 'lezen' van tekens; het vereist een model dat de context volledig kan begrijpen.
Onlangs heeft het CMC Institute of Applied Technology (CMC ATI) bekendgemaakt dat het CATI-VLM-model (Visual Document Understanding) – ontwikkeld door hun onderzoeksteam op basis van een grote datawarehouse van 5 TB – veel internationale concurrenten heeft overtroffen en de top 12 wereldwijd en de eerste plaats in Vietnam heeft bereikt in de ranglijst die in juni 2025 door de Robust Reading Competition (RRC) wordt gepubliceerd in de categorie Document Visual Question Answering (DocVQA).
De Robust Reading Competition (RRC) is een prestigieuze wetenschappelijke wedstrijd (https://rrc.cvc.uab.es/) georganiseerd door het Computer Vision Centre (CVC) van de Autònoma de Barcelona University (UAB) in Spanje, een wereldberoemde onderzoeksinstelling op het gebied van computervisie.
De wedstrijd, die in 2011 van start ging, wordt jaarlijks gehouden in het kader van de International Conference on Text Analysis and Recognition (ICDAR) – een van 's werelds toonaangevende fora op het gebied van computervisie. De wedstrijd trekt talloze onderzoekers en ingenieurs aan van universiteiten, onderzoeksinstellingen en grote technologiebedrijven zoals de Tsinghua Universiteit, Hyundai Motor Group en Tencent. De RRC-problemen zijn ontworpen om technologische vooruitgang te bevorderen en zijn nauw verbonden met praktische problemen, variërend van vertaling en bedrijfsdatabeheer tot stadsanalyse en de verwerking van historische documenten.
Dr. Dang Minh Tuan, directeur van CMC ATI, verklaarde: "We zijn verheugd dat de onderzoekscapaciteiten van het CMC-team zijn bevestigd door een prestigieuze internationale competitie zoals RRC. In korte tijd heeft het onderzoeksteam een hoge positie behaald, waarmee het zijn internationale concurrentievermogen ten opzichte van grote namen uit ontwikkelde landen aantoont. Belangrijker nog, dit is een duidelijk bewijs van ons vermogen om technologie te beheersen en specifieke problemen op te lossen die verband houden met de Vietnamese taal en gespecialiseerde vakgebieden in Vietnam."
Dr. Dang Minh Tuan, directeur van CMC ATI.
CATI-VLM verschilt van traditionele OCR doordat het niet alleen tekens extraheert, maar ook meerdere informatielagen begrijpt: tekstinhoud, niet-tekstuele elementen (selectievakjes, grafieken, handtekeningen, formules), lay-out (paginastructuur, tabellen, formulieren) en stijl (lettertypen, markeringen, enz.). Het model kan visuele vragen beantwoorden die over documentafbeeldingen worden gesteld, vergelijkbaar met ChatGPT, zonder dat het van tevoren elk specifiek formulier hoeft te leren.
Opvallend is dat CATI-VLM, met slechts 3 miljard parameters, in de RRC-ranking de hoogste nauwkeurigheid behaalde in 4 van de 7 datasets, waarmee het veel modellen van grote technologiebedrijven zoals Deepseek (27 miljard parameters), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) en Baidu (top 22) overtrof.
Deze prestatie toont ook een praktische aanpak aan, waarbij de focus ligt op het beheersen van kerntechnologieën en het optimaliseren van modellen die aansluiten bij de infrastructuur van Vietnam, in plaats van het nastreven van schaalbaarheidsparameters.
Voorbeeld van een aanmeldingsformulier voor een universiteit
De tekst is geïdentificeerd aan de hand van het handschrift in de bovenstaande afbeelding.
De heer Nguyen Trung Chinh, voorzitter van de raad van bestuur en uitvoerend voorzitter van CMC Technology Group, benadrukte: "Dit is het resultaat van meer dan tien jaar aanhoudende investeringen in onderzoek en ontwikkeling (R&D) van technologie. De hoge prestaties van CMC op het internationale technologiegebied bevestigen onze strategie om de Vietnamese technologie te beheersen, in combinatie met onze focus op AI-transformatie en -uitbreiding naar de wereldmarkt. Wij geloven dat Vietnamese intelligentie volledig in staat is om te concurreren met de grote wereldwijde technologiebedrijven en een waardige positie op de wereldwijde technologiekaart te verwerven."
CATI-VLM zal worden toegepast in het C.OpenAI-ecosysteem van producten, waaronder: de virtuele assistent CLS voor het beoordelen van juridische documenten, CMC SmartDoc - een platform voor digitale documenttransformatie, het kennismanagementsysteem CMC KMS, een geautomatiseerd rapportagesysteem voor slimme kantoren en de volgende generatie Agentic Documents-applicaties.
QUANG HUY
Bron: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Reactie (0)