Clasamentul RRC în categoria DocVQA, iunie 2025.
În contextul transformării digitale rapide și al adoptării inteligenței artificiale în Vietnam, tehnologia OCR (recunoaștere optică a caracterelor) joacă un rol din ce în ce mai important în digitalizarea documentelor, automatizarea proceselor de afaceri, economisirea costurilor și îmbunătățirea eficienței managementului. Cu toate acestea, având în vedere caracteristicile unice ale limbii vietnameze, inclusiv accentele și scrisul de mână, problema recunoașterii depășește simpla „citire” a caracterelor; necesită un model capabil să înțeleagă în mod cuprinzător contextul.
Recent, Institutul de Tehnologie Aplicată CMC (CMC ATI) a anunțat modelul CATI-VLM (Visual Document Understanding) – dezvoltat de echipa sa de cercetare dintr-un depozit de date mare de 5 TB – depășind mulți competitori internaționali și ajungând în top 12 la nivel global și top 1 în Vietnam în clasamentul publicat de Robust Reading Competition (RRC) în iunie 2025, la categoria Document Visual Question Answering (DocVQA).
Competiția de Lectură Robustă (RRC) este o competiție științifică prestigioasă (https://rrc.cvc.uab.es/) organizată de Centrul de Viziune prin Calculator (CVC) al Universității Autonome din Barcelona (UAB), Spania, o instituție de cercetare de renume mondial în domeniul vederii prin calculator.
Inițiată în 2011, competiția se desfășoară anual în cadrul Conferinței Internaționale privind Analiza și Recunoașterea Textului (ICDAR) – unul dintre cele mai importante forumuri mondiale în domeniul vederii computerizate. Competiția atrage numeroși cercetători și ingineri de la universități, institute de cercetare și corporații tehnologice importante, precum Universitatea Tsinghua, Hyundai Motor Group și Tencent. Problemele RRC sunt concepute pentru a promova progresul tehnologic, strâns legat de probleme practice, de la traducere și managementul datelor întreprinderilor până la analiza urbană și procesarea documentelor istorice.
Dr. Dang Minh Tuan, directorul CMC ATI, a declarat: „Suntem încântați că capacitățile de cercetare ale echipei CMC au fost afirmate prin intermediul unei competiții globale prestigioase precum RRC. Într-un timp scurt, echipa de cercetare a obținut un clasament înalt, demonstrând competitivitate internațională alături de nume importante din țările dezvoltate. Mai important, aceasta este o dovadă clară a capacității noastre de a stăpâni tehnologia pentru a rezolva probleme specifice legate de limba vietnameză și domeniile de specialitate din Vietnam.”
Dr. Dang Minh Tuan, Director CMC ATI.
CATI-VLM diferă de OCR-ul tradițional prin faptul că nu numai că extrage caractere, ci înțelege și mai multe straturi de informații: conținut textual, elemente non-textuale (casete de bifat, casete de selectare, diagrame, semnături, formule), aspect (structura paginii, tabele, formulare) și stil (fonturi, evidențiere etc.). Modelul poate răspunde la întrebări vizuale puse pe imaginile documentelor, similar cu ChatGPT, fără a fi nevoie să înveți fiecare formular specific în prealabil.
În clasamentul RRC, CATI-VLM, cu doar 3 miliarde de parametri, a atins cea mai mare precizie în 4 din 7 seturi de date, depășind multe modele Big Tech, cum ar fi Deepseek (27 de miliarde de parametri), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) și Baidu (top 22).
Realizarea demonstrează, de asemenea, o abordare practică, concentrându-se pe stăpânirea tehnologiilor de bază și optimizarea modelelor pentru a se potrivi condițiilor de infrastructură din Vietnam, mai degrabă decât pe urmărirea parametrilor de scalabilitate.
Exemplu de formular de cerere de admitere la universitate
Textul a fost identificat după scrisul de mână din imaginea de mai sus.
Dl. Nguyen Trung Chinh, președintele consiliului de administrație și președinte executiv al CMC Technology Group, a subliniat: „Acesta este rezultatul a peste un deceniu de investiții constante în cercetare și dezvoltare (C&D) tehnologică. Realizările remarcabile ale CMC în arena tehnologică internațională confirmă strategia noastră de a stăpâni tehnologia vietnameză, împreună cu orientarea noastră către transformarea inteligenței artificiale și extinderea pe piața globală. Credem că serviciile de informații vietnameze sunt pe deplin capabile să concureze cu marile companii tehnologice globale, creând o poziție demnă pe harta tehnologiei mondiale.”
CATI-VLM va fi aplicat în ecosistemul de produse C.OpenAI, inclusiv: asistentul virtual CLS pentru revizuirea documentelor juridice, CMC SmartDoc - o platformă de transformare digitală a documentelor, sistemul de gestionare a cunoștințelor CMC KMS, un sistem automat de raportare pentru birouri inteligente și aplicații Agentic Documents de ultimă generație.
QUANG HUY
Sursă: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Comentariu (0)