RRC-rankning i DocVQA-kategori 6/2025.
I samband med den starka digitala transformationen och omvandlingen av artificiell intelligens-applikationer i Vietnam spelar OCR-teknik (optisk teckenigenkänning) en allt viktigare roll för att digitalisera dokument, automatisera affärsprocesser, spara kostnader och förbättra ledningseffektiviteten. Men med vietnamesiska accenter och handstil stannar inte igenkänningsproblemet vid att "läsa ord", utan kräver att modellen har förmågan att förstå sammanhanget på ett heltäckande sätt.
Nyligen tillkännagav CMC Technology Application Institute (CMC ATI) CATI-VLM-modellen (Visual Document Understanding) – utvecklad av forskarteamet från ett 5TB stort datalager. Modellen överträffar många internationella konkurrenter och nådde topp 12 i världen och topp 1 i Vietnam i den ranking som just tillkännagavs av Robust Reading Competition (RRC) i juni 2025 i kategorin Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) är en prestigefylld vetenskaplig lekplats (https://rrc.cvc.uab.es/) som organiseras av Computer Vision Center (CVC) vid Universitat Autònoma de Barcelona (UAB) i Spanien, en prestigefylld forskningsanläggning i världen inom datorseende.
Tävlingen initierades 2011 och hålls årligen inom ramen för International Conference on Text Analysis and Recognition (ICDAR) – ett av världens ledande forum inom datorseende. Tävlingen lockar ett stort antal forskare och ingenjörer från universitet, forskningsinstitut och stora teknikföretag som Tsinghua University, Hyundai Motor Group, Tencent... RRC:s problem är utformade för att främja tekniska framsteg, nära kopplade till praktiska problem från översättning, företagsdatahantering till urban analys och historisk dokumentbehandling.
Dr. Dang Minh Tuan, chef för CMC ATI, delade: "Vi är mycket glada över att CMC-teamets forskningskapacitet har bekräftats genom en prestigefylld global plattform som RRC. På kort tid har forskargruppen uppnått höga rankningar, vilket visar sin internationella konkurrenskraft med stora namn från utvecklade länder. Ännu viktigare är att detta är en tydlig demonstration av förmågan att bemästra teknik för att lösa specifika problem inom det vietnamesiska språket och specialiserade områden i Vietnam."
Dr. Dang Minh Tuan, chef för CMC ATI.
CATI-VLM skiljer sig från traditionell OCR genom att den inte bara extraherar tecken, utan också förstår flera lager av information: textinnehåll, icke-textelement (kryssrutor, kryssrutor, diagram, signaturer, formler), layout (sidstruktur, tabeller, formulär) och stil (teckensnitt, markeringar etc.). Modellen kan svara på visuella frågor som ställs på dokumentbilder, liknande ChatGPT, utan att behöva lära sig specifika formulär i förväg.
Det är värt att notera att CATI-VLM, med endast 3 miljarder parametrar, uppnådde den högsta noggrannheten i 4/7-dataset på RRC-rankningen, och överträffade många Big Tech-modeller som Deepseek (27 miljarder parametrar), GPT-4 Vision Turbo + Amazon Textract OCR (topp 34) eller Baidu (topp 22).
Prestationen visar också ett praktiskt tillvägagångssätt, med fokus på att bemästra kärnteknologi och optimera modellen för att passa Vietnams infrastrukturförhållanden istället för att jaga parameterskala.
Exempel på ansökningsblankett för högskoleinträde
Texten har känts igen från handstilen i bilden ovan.
Herr Nguyen Trung Chinh, styrelseordförande och arbetande ordförande för CMC Technology Group, betonade: "Detta är resultatet av mer än ett decennium av ihållande investeringar i teknisk forskning och utveckling (FoU). CMC:s höga prestationer på den internationella teknikmarknaden bekräftar strategin att bemästra vietnamesisk teknologi, i kombination med inriktningen på AI-transformation och inträde på den globala marknaden. Vi tror att vietnamesisk underrättelsetjänst är fullt kapabel att stå sida vid sida med globala Big Tech och skapa en värdig position på världskartan inom teknik."
CATI-VLM kommer att tillämpas i produktkedjan i C.OpenAI-ekosystemet, inklusive: CLS virtuell assistent för granskning av juridiska dokument, CMC SmartDoc - digital dokumentkonverteringsplattform, CMC KMS kunskapshanteringssystem, automatiskt rapporteringssystem för smarta kontor och den nya generationens Agentic Documents-applikationer.
QUANG HUY
Källa: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Kommentar (0)