Vietnámban erőteljesen zajlik a mesterséges intelligencia átalakulása, az OCR (optikai karakterfelismerő) technológia egyre fontosabb szerepet játszik a dokumentumok digitalizálásában. Fotó: Illusztráció
A CMC Technology Application Institute (CMC ATI) nemrégiben bejelentette a kutatócsoport által egy 5 TB-os nagyméretű adattárházból kidolgozott CATI-VLM (Visual Document Understanding) modellt, amely a Robust Reading Competition (RRC) által 2025 júniusában kihirdetett Dokumentum Vizuális Kérdésválaszok (DocVQA) kategóriában a világ 12., Vietnám pedig az első helyre került.
Dang Minh Tuan, a CMC ATI igazgatója megosztotta: „Nagy örömünkre szolgál, hogy a CMC csapat kutatási kapacitását egy olyan rangos globális helyszín is megerősítette, mint az RRC. Büszkék vagyunk arra, hogy a csapat rövid idő alatt magas rangot ért el, és a fejlett országok nagy neveivel állhat szemben. Ami még fontosabb, ez egyértelműen bizonyítja, hogy képesek vagyunk elsajátítani a technológiát a vietnami és a vietnami speciális területek specifikus problémáinak megoldására.”
A vietnami digitális átalakulás és a mesterséges intelligencia alapú átalakulás erősödése közepette az OCR (optikai karakterfelismerő) technológia egyre fontosabb szerepet játszik a dokumentumok digitalizálásában, az üzleti folyamatok automatizálásában, a költségek megtakarításában és a vezetési hatékonyság javításában.
A vietnami akcentussal és kézírással járó jellemzők miatt azonban a felismerési probléma nem áll meg a „szavak olvasásakor”, hanem megköveteli, hogy a modell képes legyen átfogóan megérteni a kontextust.
A CATI-VLM abban különbözik a hagyományos OCR-től, hogy nemcsak karaktereket nyer ki, hanem több információréteget is megért: szöveges tartalmat, nem szöveges elemeket (jelölőnégyzetek, jelölőnégyzetek, diagramok, aláírások, képletek), elrendezést (oldalszerkezet, táblázatok, űrlapok) és stílust (betűtípusok, kiemelések…).
A modell a ChatGPT-hez hasonlóan képes megválaszolni a dokumentumok képein feltett vizuális kérdéseket anélkül, hogy előre meg kellene tanulnia a konkrét űrlapokat.
A Robust Reading Competition (RRC) egy rangos tudományos játszótér, amelyet a spanyolországi Barcelonai Autonóm Egyetem (UAB) Számítógépes Látás Központja szervez, amely a számítógépes látás területén a világ egyik rangos kutatóintézete.
A 2011-ben indított verseny, amely mindig az ICDAR Nemzetközi Szövegelemzési és Felismerési Konferenciával – a világ egyik legnagyobb dokumentumelemzési és számítógépes látási fórumával – együtt zajlik, mára fontos eseménnyé vált, és kutatókat, mérnököket vonz rangos egyetemekről, kutatóintézetekből és olyan technológiai vállalatokból, mint a Tsinghua Egyetem, a Hyundai Motor Group és a Tencent...
Az RRC küldetései a technológiai fejlődés előmozdítására irányulnak, a fordítástól és a vállalati adatkezeléstől kezdve a városi elemzéseken át a történeti dokumentumok feldolgozásáig terjedő valós problémákhoz kapcsolódva.
A munkától a szülői szerepig: Hogyan használják a tech-vezérigazgatók nap mint nap a mesterséges intelligenciát? Jensen Huangtól Tim Cookig a világ legbefolyásosabb tech-vezérigazgatói hasznosítják a mesterséges intelligenciát a mindennapjaik során.
Forrás: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Hozzászólás (0)