RRC helyezés a DocVQA kategóriában 6/2025.
A vietnami digitális átalakulás és a mesterséges intelligencia alkalmazások átalakulásának kontextusában az OCR technológia (optikai karakterfelismerés) egyre fontosabb szerepet játszik a dokumentumok digitalizálásában, az üzleti folyamatok automatizálásában, a költségek megtakarításában és a vezetési hatékonyság javításában. A vietnami akcentusokkal és kézírással járó jellemzők miatt azonban a felismerési probléma nem áll meg a „szavak olvasásakor”, hanem megköveteli, hogy a modell képes legyen átfogóan megérteni a kontextust.
A CMC Technology Application Institute (CMC ATI) nemrégiben bejelentette a CATI-VLM (Visual Document Understanding) modellt, amelyet a kutatócsoport egy 5 TB-os nagyméretű adattárházból fejlesztett ki, és számos nemzetközi versenytársat megelőzve bekerült a világ 12 legjobbja, Vietnámban pedig az első helyre a Robust Reading Competition (RRC) által 2025 júniusában kihirdetett Dokumentum Vizuális Kérdésválaszok (DocVQA) kategóriában.
A Robust Reading Competition (RRC) egy rangos tudományos játszótér (https://rrc.cvc.uab.es/), amelyet a spanyolországi Barcelonai Autonóm Egyetem (UAB) Számítógépes Látás Központja (CVC) szervez, amely a számítógépes látás területén a világ egyik rangos kutatóintézete.
A versenyt 2011-ben indították útjára, és minden évben a Nemzetközi Szövegelemzési és Felismerési Konferencia (ICDAR) keretében rendezik meg – ez a világ egyik vezető fóruma a számítógépes látás területén. A verseny számos kutatót és mérnököt vonz egyetemekről, kutatóintézetekből és olyan nagy technológiai vállalatoktól, mint a Tsinghua Egyetem, a Hyundai Motor Group, a Tencent... Az RRC feladatai a technológiai fejlődés előmozdítását célozzák, szorosan kapcsolódva a gyakorlati problémákhoz, a fordítástól, a vállalati adatkezelésen át a városi elemzésig és a történeti dokumentumok feldolgozásáig.
Dr. Dang Minh Tuan, a CMC ATI igazgatója megosztotta: „Nagy örömünkre szolgál, hogy a CMC csapat kutatási kapacitását egy olyan rangos globális helyszín is megerősítette, mint az RRC. A kutatócsoport rövid idő alatt magas helyezéseket ért el, demonstrálva nemzetközi versenyképességét a fejlett országok nagy neveivel szemben. Ami még fontosabb, ez egyértelműen bizonyítja, hogy képesek vagyunk elsajátítani a technológiát a vietnami és a vietnami speciális területek specifikus problémáinak megoldására.”
Dr. Dang Minh Tuan, a CMC ATI igazgatója.
A CATI-VLM abban különbözik a hagyományos OCR-től, hogy nemcsak karaktereket nyer ki, hanem több információréteget is megért: szöveges tartalmat, nem szöveges elemeket (jelölőnégyzetek, jelölőnégyzetek, diagramok, aláírások, képletek), elrendezést (oldalszerkezet, táblázatok, űrlapok) és stílust (betűtípusok, kiemelések stb.). A modell a ChatGPT-hez hasonlóan képes megválaszolni a dokumentumok képein feltett vizuális kérdéseket anélkül, hogy előre meg kellene tanulni a konkrét űrlapokat.
Figyelemre méltó, hogy az RRC rangsorában a mindössze 3 milliárd paraméterrel rendelkező CATI-VLM érte el a legnagyobb pontosságot 4/7 adathalmazban, megelőzve számos Big Tech modellt, mint például a Deepseek (27 milliárd paraméter), a GPT-4 Vision Turbo + Amazon Textract OCR (top 34) vagy a Baidu (top 22).
Az eredmény egyben gyakorlatias megközelítést is mutat, amely az alapvető technológia elsajátítására összpontosít, a modellt pedig a vietnami infrastrukturális feltételekhez igazítva optimalizálva a paraméterek skálájának hajszolása helyett.
Minta főiskolai felvételi jelentkezési lap
A fenti képen látható kézírásból felismerték a szöveget.
Nguyen Trung Chinh, a CMC Technology Group igazgatótanácsának elnöke és ügyvezető elnöke hangsúlyozta: „Ez több mint egy évtizedes, a technológiai kutatás-fejlesztésbe (K+F) történő kitartó befektetés eredménye. A CMC nemzetközi technológiai színtéren elért kiemelkedő eredményei megerősítik a vietnami technológia elsajátításának stratégiáját, a mesterséges intelligencia átalakulásának és a globális piacra való belépésének orientációjával párosulva. Hisszük, hogy a vietnami hírszerzés teljes mértékben képes arra, hogy vállvetve álljon a globális Big Tech vállalatokkal, és méltó helyet foglaljon el a világ technológiai térképén.”
A CATI-VLM-et a C.OpenAI ökoszisztéma termékláncában fogják alkalmazni, beleértve a következőket: CLS virtuális asszisztens jogi dokumentumok áttekintéséhez, CMC SmartDoc - digitális dokumentumkonverziós platform, CMC KMS tudásmenedzsment rendszer, automatikus jelentéskészítő rendszer intelligens irodákhoz és új generációs Agentic Documents alkalmazások.
QUANG HUY
Forrás: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Hozzászólás (0)