Pořadí RRC v kategorii DocVQA 6/2025.
V kontextu digitální transformace a transformace aplikací umělé inteligence ve Vietnamu hraje technologie OCR (optické rozpoznávání znaků) stále důležitější roli v digitalizaci dokumentů, automatizaci obchodních procesů, úspoře nákladů a zvyšování efektivity řízení. Vzhledem k charakteristickým rysům Vietnamu s přízvukem a rukopisem se však problém rozpoznávání neomezuje pouze na „čtení slov“, ale vyžaduje, aby model dokázal komplexně porozumět kontextu.
Nedávno CMC Technology Application Institute (CMC ATI) oznámil model CATI-VLM (Visual Document Understanding) – vyvinutý výzkumným týmem z velkého datového skladu o velikosti 5 TB. Tento model překonal mnoho mezinárodních konkurentů a dosáhl v žebříčku, který právě v červnu 2025 oznámila soutěž Robust Reading Competition (RRC) v kategorii Document Visual Question Answering (Document Visual Question Answering).
Soutěž Robust Reading Competition (RRC) je prestižní vědecké hřiště (https://rrc.cvc.uab.es/) pořádané Centrem počítačového vidění (CVC) Autonomní univerzity v Barceloně (UAB) ve Španělsku, což je prestižní výzkumné zařízení v oblasti počítačového vidění na světě.
Soutěž byla zahájena v roce 2011 a koná se každoročně v rámci Mezinárodní konference o analýze a rozpoznávání textu (ICDAR) – jednoho z předních světových fór v oblasti počítačového vidění. Soutěž přitahuje velké množství výzkumníků a inženýrů z univerzit, výzkumných ústavů a velkých technologických korporací, jako je Univerzita Tsinghua, Hyundai Motor Group, Tencent... Problémy RRC jsou navrženy tak, aby podpořily technologický pokrok a úzce souvisely s praktickými problémy od překladu, správy podnikových dat až po analýzu měst a zpracování historických dokumentů.
Dr. Dang Minh Tuan, ředitel CMC ATI, uvedl: „Jsme velmi potěšeni, že výzkumné kapacity týmu CMC byly potvrzeny prostřednictvím prestižního globálního hřiště, jako je RRC. Za krátkou dobu se výzkumnému týmu podařilo dosáhnout vysokého umístění, což dokazuje jeho mezinárodní konkurenceschopnost s velkými jmény z rozvinutých zemí. A co je důležitější, jedná se o jasnou demonstraci schopnosti zvládnout technologie pro řešení specifických problémů Vietnamu a specializovaných oborů ve Vietnamu.“
Dr. Dang Minh Tuan, ředitel CMC ATI.
CATI-VLM se liší od tradičního OCR v tom, že nejen extrahuje znaky, ale také rozumí více vrstvám informací: textovému obsahu, netextovým prvkům (zaškrtávací políčka, kontrolní seznamy, grafy, podpisy, vzorce), rozvržení (struktura stránky, tabulky, formuláře) a stylu (písma, zvýraznění atd.). Model dokáže odpovědět na vizuální otázky kladené na základě obrázků dokumentů, podobně jako ChatGPT, aniž by se bylo nutné předem učit konkrétní formuláře.
Je pozoruhodné, že v žebříčku RRC dosáhl CATI-VLM s pouhými 3 miliardami parametrů nejvyšší přesnosti ve 4/7 datových sadách a překonal tak mnoho modelů velkých technologických firem, jako je Deepseek (27 miliard parametrů), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) nebo Baidu (top 22).
Tento úspěch také ukazuje praktický přístup, zaměřený na zvládnutí klíčových technologií a optimalizaci modelu tak, aby vyhovoval infrastrukturním podmínkám Vietnamu, namísto honby za škálováním parametrů.
Vzorový formulář žádosti o přijetí na vysokou školu
Text byl rozpoznán z rukopisu na obrázku výše.
Pan Nguyen Trung Chinh, předseda představenstva a výkonný předseda technologické skupiny CMC, zdůraznil: „Toto je výsledek více než desetiletí neustálých investic do technologického výzkumu a vývoje (R&D). Vysoké úspěchy společnosti CMC na mezinárodním technologickém poli potvrzují strategii zvládnutí vietnamských technologií spolu s orientací na transformaci umělé inteligence a vstup na globální trh. Věříme, že vietnamská inteligence je plně schopna stát bok po boku s globálními technologickými velkými společnostmi a vytvořit si důstojné místo na světové technologické mapě.“
CATI-VLM bude aplikován v produktovém řetězci ekosystému C.OpenAI, včetně: virtuálního asistenta CLS pro kontrolu právních dokumentů, CMC SmartDoc - platformy pro digitální konverzi dokumentů, systému správy znalostí CMC KMS, systému automatického reportingu pro chytré kanceláře a aplikací nové generace Agentic Documents.
QUANG HUY
Zdroj: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Komentář (0)