V kontextu digitální transformace a transformace umělé inteligence (AI) ve Vietnamu hraje technologie OCR (optické rozpoznávání znaků) stále důležitější roli v digitalizaci dokumentů, automatizaci obchodních procesů, úspoře nákladů a zlepšování efektivity řízení. Vzhledem k charakteristickým rysům Vietnamu s přízvukem a rukopisem se však problém rozpoznávání neomezuje pouze na „čtení slov“, ale vyžaduje, aby model dokázal komplexně porozumět kontextu.
CMC Technology Application Institute (CMC ATI) nedávno oznámil model CATI-VLM (Visual Document Understanding), který vyvinul výzkumný tým z datového skladu o velikosti 5 TB. V žebříčku, který právě v červnu 2025 oznámila soutěž Robust Reading Competition (RRC), se v kategorii Document Visual Question Answering (Document Visual Question Answering) umístil na 12. místě na světě a na 1. místě ve Vietnamu.
Pořadí RRC v kategorii DocVQA 6/2025.
Soutěž Robust Reading Competition (RRC) je prestižní vědecké hřiště (https://rrc.cvc.uab.es/) pořádané Centrem počítačového vidění (CVC) Autonomní univerzity v Barceloně (UAB) ve Španělsku, prestižním výzkumným zařízením na světě v oblasti počítačového vidění. Soutěž, která byla zahájena v roce 2011 a vždy doprovází Mezinárodní konferenci o analýze a rozpoznávání textu ICDAR – jedno z největších světových fór o analýze dokumentů a počítačovém vidění, se stala významnou událostí, která přitahuje výzkumníky, inženýry z prestižních univerzit, výzkumných ústavů a technologických společností, jako je Univerzita Tsinghua, Hyundai Motor Group a Tencent... Úkoly RRC jsou navrženy tak, aby podporovaly technologický pokrok a úzce souvisely s praktickými problémy od překladu, správy podnikových dat až po analýzu měst a zpracování historických dokumentů.
Dr. Dang Minh Tuan, ředitel CMC ATI, k tomu uvedl: „Výzkumné kapacity týmu CMC jsou potvrzeny prostřednictvím prestižního globálního hřiště, jako je RRC. Jsme hrdí na to, že se týmu v krátké době podařilo dosáhnout vysokého umístění a stát bok po boku velkých jmen z rozvinutých zemí. A co je důležitější, jedná se o jasnou demonstraci schopnosti zvládnout technologie k řešení specifických problémů Vietnamu a specializovaných oborů ve Vietnamu.“
CATI-VLM se liší od tradičního OCR v tom, že nejen extrahuje znaky, ale také rozumí více vrstvám informací: textovému obsahu, netextovým prvkům (zaškrtávací políčka, kontrolní seznamy, grafy, podpisy, vzorce), rozvržení (struktura stránky, tabulky, formuláře) a stylu (písma, zvýraznění atd.). Model dokáže odpovědět na vizuální otázky kladené na základě obrázků dokumentů, podobně jako ChatGPT, aniž by se bylo nutné předem učit konkrétní formuláře.
Podle novin News and People
Zdroj: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Komentář (0)