
RRC:n sijoitus DocVQA-kategoriassa, kesäkuu 2025.
Vietnamin nopean digitaalisen muutoksen ja tekoälyn käyttöönoton keskellä OCR-teknologialla (Optical Character Recognition) on yhä tärkeämpi rooli asiakirjojen digitalisoinnissa, liiketoimintaprosessien automatisoinnissa, kustannussäästöissä ja hallinnon tehostamisessa. Vietnamin kielen ainutlaatuisten ominaisuuksien, kuten aksenttien ja käsialan, vuoksi tunnistusongelma on kuitenkin pidemmälle menevä kuin pelkkä merkkien "lukeminen"; se vaatii mallin, joka kykenee ymmärtämään kontekstin kokonaisvaltaisesti.
CMC Institute of Applied Technology (CMC ATI) ilmoitti hiljattain tutkimusryhmänsä kehittämästä CATI-VLM (Visual Document Understanding) -mallista, joka pohjautui suureen 5 teratavun tietovarastoon. Malli nousi Robust Reading Competitionin (RRC) kesäkuussa 2025 julkaisemassa Document Visual Question Answering (DocVQA) -kategoriassa ohittaen monia kansainvälisiä kilpailijoita ja nousten maailmanlaajuisesti 12 parhaan joukkoon ja Vietnamissa ykköseksi.
Robust Reading Competition (RRC) on arvostettu tieteellinen kilpailu (https://rrc.cvc.uab.es/), jonka järjestää Espanjassa sijaitsevan Autònoma de Barcelonan yliopiston (UAB) tietokonenäön keskus (CVC). Computer Vision Centre (CVC) on maailmankuulu tietokonenäön alan tutkimuslaitos.
Vuonna 2011 käynnistetty kilpailu järjestetään vuosittain International Conference on Text Analysis and Recognitionin (ICDAR) puitteissa – ICDAR on yksi maailman johtavista konenäön alan foorumeista. Kilpailu houkuttelee lukuisia tutkijoita ja insinöörejä yliopistoista, tutkimuslaitoksista ja suurista teknologiayrityksistä, kuten Tsinghuan yliopistosta, Hyundai Motor Groupista ja Tencentistä. RRC-ongelmat on suunniteltu edistämään teknologista kehitystä ja ne liittyvät läheisesti käytännön ongelmiin, jotka vaihtelevat kääntämisestä ja yritystiedon hallinnasta kaupunkianalyysiin ja historiallisten asiakirjojen käsittelyyn.
CMC ATI:n johtaja, tohtori Dang Minh Tuan, kertoi: "Olemme iloisia siitä, että CMC-tiimin tutkimuskyvykkyys on vahvistunut arvostetussa globaalissa kilpailussa, kuten RRC:ssä. Lyhyessä ajassa tutkimusryhmä on saavuttanut korkean sijoituksen ja osoittanut kansainvälistä kilpailukykyään kehittyneiden maiden merkittävien nimien kanssa. Mikä tärkeintä, tämä on selvä osoitus kyvystämme hallita teknologiaa ratkaistaksemme vietnamin kieleen ja Vietnamin erikoisaloihin liittyviä erityisongelmia."

Saatat myös pitää tästä

8 askelta tehokkaan pilvimigraatiosuunnitelman rakentamiseen yrityksellesi.Pilvipalveluihin siirtymisestä on tulossa monille yrityksille prioriteetti IT-infrastruktuurinsa modernisoinnissa ja digitaalisen transformaation edistämisessä. Jotta siirtymä olisi tehokasta, yritysten on kuitenkin laadittava strategia, joka on linjassa niiden nykyisen järjestelmätilan ja operatiivisten tavoitteiden kanssa. [...] Dr. Dang Minh Tuan, CMC ATI:n johtaja.
CATI-VLM eroaa perinteisestä OCR:stä siinä, että se ei ainoastaan poimi merkkejä, vaan ymmärtää myös useita informaatiokerroksia: tekstisisältöä, ei-tekstielementtejä (valintaruudut, kaaviot, allekirjoitukset, kaavat), asettelua (sivurakenne, taulukot, lomakkeet) ja tyyliä (fontit, korostus jne.). Malli voi vastata dokumenttikuvissa esitettyihin visuaalisiin kysymyksiin ChatGPT:n tavoin ilman, että jokaista lomaketta tarvitsee opetella etukäteen.
Merkillepantavaa on, että RRC-rankingissa CATI-VLM saavutti vain 3 miljardilla parametrillaan korkeimman tarkkuuden neljässä seitsemästä tietojoukosta ja ylitti monet Big Tech -mallit, kuten Deepseekin (27 miljardia parametria), GPT-4 Vision Turbon + Amazon Textract OCR:n (34 parasta) ja Baidun (22 parasta).
Saavutus osoittaa myös käytännöllisen lähestymistavan, jossa keskitytään ydinteknologioiden hallintaan ja mallien optimointiin Vietnamin infrastruktuuriolosuhteisiin sen sijaan, että jahdattaisiin skaalautuvuusparametreja.

Esimerkki yliopiston pääsyhakemuslomakkeesta

Teksti on tunnistettu yllä olevan kuvan käsialasta.

Vietnamin ja Yhdysvaltojen ystävyyden vahvistaminen.Yhdysvaltain armeijan Tyynenmeren alueen valtuuskunta, jota johti Yhdysvaltain armeijan Tyynenmeren alueen apulaiskomentaja, kenraaliluutnantti Joel Vowell, teki 3. heinäkuuta kohteliaisuusvierailun Quang Trin maakunnan sotilaskomennossa osana Tyynenmeren kumppanuus - Tyynenmeren ystävät 2026 -ohjelmaa. CMC Technology Groupin hallituksen puheenjohtaja ja toimitusjohtaja Nguyen Trung Chinh korosti: "Tämä on yli vuosikymmenen jatkuvien investointien tulos teknologian tutkimukseen ja kehitykseen (T&K). CMC:n korkeat saavutukset kansainvälisellä teknologia-areenalla vahvistavat strategiaamme hallita vietnamilaista teknologiaa yhdistettynä suuntautumiseemme tekoälyn muutokseen ja laajentumiseen globaaleille markkinoille. Uskomme, että vietnamilainen älykkyys pystyy täysin kilpailemaan globaalien suurten teknologiayritysten kanssa ja luomaan arvokkaan aseman maailman teknologiakartalla."
CATI-VLM:ää sovelletaan C.OpenAI-tuoteekosysteemiin, johon kuuluvat: CLS-virtuaaliassistentti oikeudellisten asiakirjojen tarkasteluun, CMC SmartDoc - digitaalinen asiakirjojen muunnosalusta, CMC KMS -tiedonhallintajärjestelmä, automatisoitu raportointijärjestelmä älykkäille toimistoille ja seuraavan sukupolven Agentic Documents -sovellukset.
QUANG HUY
Lähde: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html