Základní umělá inteligence „Make in Vietnam“ se umístila mezi 12 nejlepšími na světě.

V kontextu digitální transformace a rychlého rozvoje umělé inteligence (AI) ve Vietnamu hraje technologie OCR (optické rozpoznávání znaků) stále důležitější roli v digitalizaci dokumentů, automatizaci obchodních procesů, úspoře nákladů a zvyšování efektivity řízení. Vzhledem k jedinečným vlastnostem vietnamského jazyka, včetně jeho přízvuků a rukopisu, však problém rozpoznávání jde nad rámec pouhého „čtení textu“; vyžaduje model schopný komplexně porozumět kontextu.

Nedávno CMC Institute of Applied Technology (CMC ATI) oznámil, že jeho model CATI-VLM (Visual Document Understanding), vyvinutý jeho výzkumným týmem z 5TB datového skladu, se umístil na 12. místě v celosvětovém měřítku a na 1. místě ve Vietnamu v kategorii Document Visual Question Answering (Document Visual Question Answering - Odpovídání na otázky v dokumentech), jak bylo oznámeno soutěží Robust Reading Competition (RRC) v červnu 2025.

Popisek fotografie

Pořadí RRC v kategorii DocVQA, červen 2025.

Soutěž Robust Reading Competition (RRC) je prestižní vědecká soutěž (https://rrc.cvc.uab.es/) pořádaná Centrem počítačového vidění (CVC) na Autonomní univerzitě v Barceloně (UAB) ve Španělsku, světově uznávané výzkumné instituci v oblasti počítačového vidění. Soutěž, která byla zahájena v roce 2011 a vždy ve spolupráci s Mezinárodní konferencí o analýze a rozpoznávání textu (ICDAR) – jedním z největších světových fór o analýze dokumentů a počítačovém vidění – se stala významnou událostí, která přitahuje výzkumníky a inženýry z prestižních univerzit, výzkumných ústavů a technologických společností, jako jsou Univerzita Tsinghua, Hyundai Motor Group a Tencent. Úkoly RRC jsou navrženy tak, aby podporovaly technologický pokrok, úzce spjatý s praktickými problémy od překladu a správy podnikových dat až po analýzu měst a zpracování historických dokumentů.

Dr. Dang Minh Tuan, ředitel CMC ATI, se podělil: „Výzkumné schopnosti týmu CMC byly potvrzeny prestižní globální soutěží, jako je RRC. Jsme hrdí na to, že se týmu v krátké době podařilo dosáhnout vysokého umístění a postavit se po bok významných jmen z rozvinutých zemí. A co je důležitější, je to jasný důkaz naší schopnosti zvládnout technologie pro řešení specifických problémů souvisejících s vietnamským jazykem a specializovanými obory ve Vietnamu.“

CATI-VLM se liší od tradičního OCR v tom, že nejen extrahuje znaky, ale také chápe více vrstev informací: textový obsah, netextové prvky (zaškrtávací políčka, kontrolní seznamy, grafy, podpisy, vzorce), rozvržení (struktura stránky, tabulky, formuláře) a styl (písma, zvýrazňování atd.). Model dokáže odpovědět na vizuální otázky kladené na základě obrázků dokumentů, podobně jako ChatGPT, aniž by se bylo nutné předem učit každý konkrétní formulář.

Podle novin News and Ethnic Minorities

Zdroj: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051