A vietnami digitális átalakulás és a mesterséges intelligencia (MI) átalakulásának kontextusában az OCR technológia (optikai karakterfelismerés) egyre fontosabb szerepet játszik a dokumentumok digitalizálásában, az üzleti folyamatok automatizálásában, a költségek megtakarításában és az irányítási hatékonyság javításában. A vietnami akcentusokkal és kézírással rendelkező nyelvek jellemzői miatt azonban a felismerési probléma nem áll meg a „szavak olvasásakor”, hanem megköveteli, hogy a modell képes legyen átfogóan megérteni a kontextust.
A CMC Technology Application Institute (CMC ATI) nemrégiben bejelentette a kutatócsoport által egy 5 TB-os nagyméretű adattárházból kidolgozott CATI-VLM (Visual Document Understanding) modellt, amely a Robust Reading Competition (RRC) által 2025 júniusában kihirdetett Dokumentum Vizuális Kérdésválaszok (DocVQA) kategóriában a világ 12., Vietnám pedig az első helyre került.
RRC helyezés a DocVQA kategóriában 6/2025.
A Robust Reading Competition (RRC) egy rangos tudományos játszótér (https://rrc.cvc.uab.es/), amelyet a barcelonai Autonóm Egyetem (UAB) Számítógépes Látás Központja (CVC) szervez Spanyolországban, amely a számítógépes látás területén a világ egyik legnagyobb kutatóintézete. A 2011-ben indított verseny, amely mindig a Szövegelemzés és Felismerés Nemzetközi Konferenciájához (ICDAR) – a világ egyik legnagyobb dokumentumelemzési és számítógépes látási fórumához – kapcsolódik, mára fontos eseménnyé vált, amely kutatókat, mérnököket vonz rangos egyetemekről, kutatóintézetekből és olyan technológiai vállalatokból, mint a Tsinghua Egyetem, a Hyundai Motor Group és a Tencent... Az RRC feladatai a technológiai fejlődés előmozdítását célozzák, szorosan kapcsolódva a gyakorlati problémákhoz, a fordítástól a vállalati adatkezelésen át a városi elemzésig és a történeti dokumentumfeldolgozásig.
Dr. Dang Minh Tuan, a CMC ATI igazgatója megosztotta: „A CMC csapat kutatási kapacitását egy olyan rangos globális játszótér, mint az RRC is igazolja. Büszkék vagyunk arra, hogy a csapat rövid idő alatt magas rangot ért el, és a fejlett országok nagy neveivel állhat szemben. Ami még fontosabb, ez egyértelműen bizonyítja, hogy képesek vagyunk elsajátítani a technológiát a vietnami és a vietnami speciális területek specifikus problémáinak megoldására.”
A CATI-VLM abban különbözik a hagyományos OCR-től, hogy nemcsak karaktereket nyer ki, hanem több információréteget is megért: szöveges tartalmat, nem szöveges elemeket (jelölőnégyzetek, jelölőnégyzetek, diagramok, aláírások, képletek), elrendezést (oldalszerkezet, táblázatok, űrlapok) és stílust (betűtípusok, kiemelések stb.). A modell a ChatGPT-hez hasonlóan képes megválaszolni a dokumentumok képein feltett vizuális kérdéseket anélkül, hogy előzetesen meg kellene tanulni a konkrét űrlapokat.
A News and People újság szerint
Forrás: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Hozzászólás (0)