Pořadí RRC v kategorii DocVQA, červen 2025.
Uprostřed rychlé digitální transformace a zavádění umělé inteligence ve Vietnamu hraje technologie OCR (optické rozpoznávání znaků) stále důležitější roli v digitalizaci dokumentů, automatizaci obchodních procesů, úsporách nákladů a zlepšení efektivity řízení. Vzhledem k jedinečným vlastnostem vietnamského jazyka, včetně jeho přízvuků a rukopisu, však problém rozpoznávání jde nad rámec pouhého „čtení“ znaků; vyžaduje model schopný komplexně porozumět kontextu.
Nedávno CMC Institute of Applied Technology (CMC ATI) oznámil model CATI-VLM (Visual Document Understanding) – vyvinutý jeho výzkumným týmem z velkého 5TB datového skladu – který překonal mnoho mezinárodních konkurentů a dosáhl v žebříčku zveřejněném organizací Robust Reading Competition (RRC) v červnu 2025 v kategorii Document Visual Question Answering (DocVQA) mezi 12 nejlepšími na světě a 1. nejlepším ve Vietnamu.
Soutěž Robust Reading Competition (RRC) je prestižní vědecká soutěž (https://rrc.cvc.uab.es/) pořádaná Centrem počítačového vidění (CVC) Autonomní univerzity v Barceloně (UAB) ve Španělsku, světově uznávané výzkumné instituci v oblasti počítačového vidění.
Soutěž, zahájená v roce 2011, se koná každoročně v rámci Mezinárodní konference o analýze a rozpoznávání textu (ICDAR) – jednoho z předních světových fór v oblasti počítačového vidění. Soutěž přitahuje řadu výzkumníků a inženýrů z univerzit, výzkumných ústavů a velkých technologických společností, jako je Univerzita Tsinghua, Hyundai Motor Group a Tencent. Úlohy RRC jsou navrženy tak, aby podpořily technologický pokrok a úzce souvisely s praktickými problémy od překladu a správy podnikových dat až po analýzu měst a zpracování historických dokumentů.
Dr. Dang Minh Tuan, ředitel CMC ATI, uvedl: „Jsme potěšeni, že výzkumné schopnosti týmu CMC byly potvrzeny v prestižní globální soutěži, jako je RRC. Za krátkou dobu se výzkumnému týmu podařilo dosáhnout vysokého umístění, což prokazuje mezinárodní konkurenceschopnost s významnými jmény z rozvinutých zemí. A co je důležitější, je to jasný důkaz naší schopnosti zvládnout technologie pro řešení specifických problémů souvisejících s vietnamským jazykem a specializovanými obory ve Vietnamu.“
Dr. Dang Minh Tuan, ředitel CMC ATI.
CATI-VLM se liší od tradičního OCR v tom, že nejen extrahuje znaky, ale také chápe více vrstev informací: textový obsah, netextové prvky (zaškrtávací políčka, kontrolní seznamy, grafy, podpisy, vzorce), rozvržení (struktura stránky, tabulky, formuláře) a styl (písma, zvýrazňování atd.). Model dokáže odpovědět na vizuální otázky kladené na obrázcích dokumentů, podobně jako ChatGPT, aniž by se bylo nutné předem učit každý konkrétní formulář.
Je pozoruhodné, že v žebříčku RRC dosáhl CATI-VLM s pouhými 3 miliardami parametrů nejvyšší přesnosti ve 4 ze 7 datových sad, čímž překonal mnoho modelů velkých technologických firem, jako je Deepseek (27 miliard parametrů), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) a Baidu (top 22).
Tento úspěch také demonstruje praktický přístup, zaměřený na zvládnutí klíčových technologií a optimalizaci modelů tak, aby vyhovovaly podmínkám vietnamské infrastruktury, spíše než na honbu za parametry škálovatelnosti.
Příklad formuláře žádosti o přijetí na univerzitu
Text byl identifikován podle rukopisu na obrázku výše.
Pan Nguyen Trung Chinh, předseda představenstva a výkonný předseda technologické skupiny CMC, zdůraznil: „Toto je výsledek více než desetiletí neustálých investic do výzkumu a vývoje (R&D) technologií. Vysoké úspěchy společnosti CMC na mezinárodní technologické scéně potvrzují naši strategii zvládnutí vietnamských technologií spolu s naší orientací na transformaci umělé inteligence a expanzi na globální trh. Věříme, že vietnamská inteligence je plně schopna konkurovat globálním technologickým gigantům a vytvořit si tak důstojnou pozici na světové technologické mapě.“
CATI-VLM bude aplikován v ekosystému produktů C.OpenAI, včetně: virtuálního asistenta CLS pro kontrolu právních dokumentů, CMC SmartDoc – platformy pro digitální transformaci dokumentů, systému správy znalostí CMC KMS, automatizovaného systému reportingu pro chytré kanceláře a aplikací Agentic Documents nové generace.
QUANG HUY
Zdroj: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Komentář (0)