Sztuczna inteligencja „Make in Vietnam” znalazła się w pierwszej dwunastce na świecie

W kontekście transformacji cyfrowej i sztucznej inteligencji (AI) w Wietnamie, technologia OCR (optycznego rozpoznawania znaków) odgrywa coraz ważniejszą rolę w digitalizacji dokumentów, automatyzacji procesów biznesowych, obniżaniu kosztów i poprawie efektywności zarządzania. Jednak biorąc pod uwagę specyfikę wietnamskiego akcentu i pisma odręcznego, problem rozpoznawania nie ogranicza się do „odczytywania słów”, ale wymaga, aby model był w stanie zrozumieć kontekst w sposób kompleksowy.

Niedawno CMC Technology Application Institute (CMC ATI) ogłosił, że model CATI-VLM (Visual Document Understanding) opracowany przez zespół badawczy w oparciu o 5 TB dużego magazynu danych znalazł się w pierwszej dwunastce na świecie i na pierwszym miejscu w Wietnamie w rankingu ogłoszonym przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).

Podpis pod zdjęciem

Ranking RRC w kategorii DocVQA 6/2025.

Robust Reading Competition (RRC) to prestiżowy konkurs naukowy (https://rrc.cvc.uab.es/) organizowany przez Centrum Wizji Komputerowej (CVC) Uniwersytetu Autonomicznego w Barcelonie (UAB) w Hiszpanii, prestiżową światową placówkę badawczą w dziedzinie wizji komputerowej. Zainicjowany w 2011 roku, stale towarzyszący Międzynarodowej Konferencji Analizy i Rozpoznawania Tekstu ICDAR – jednemu z największych na świecie forów poświęconych analizie dokumentów i wizji komputerowej, konkurs stał się ważnym wydarzeniem, przyciągającym naukowców, inżynierów z prestiżowych uniwersytetów, instytutów badawczych i firm technologicznych, takich jak Uniwersytet Tsinghua, Hyundai Motor Group i Tencent. Zadania RRC mają na celu promowanie postępu technologicznego, ściśle powiązanego z praktycznymi problemami, od tłumaczeń, zarządzania danymi w przedsiębiorstwach, po analizę urbanistyczną i przetwarzanie dokumentów historycznych.

Dr Dang Minh Tuan, dyrektor CMC ATI, dodał: „Potencjał badawczy zespołu CMC został potwierdzony prestiżowym, globalnym ośrodkiem badawczym, takim jak RRC. Jesteśmy dumni, że w tak krótkim czasie zespół osiągnął wysoką pozycję, stając ramię w ramię z dużymi firmami z krajów rozwiniętych. Co ważniejsze, jest to wyraźny dowód na to, że zespół jest w stanie opanować technologię do rozwiązywania specyficznych problemów wietnamskich i specjalistycznych w Wietnamie”.

CATI-VLM różni się od tradycyjnego OCR tym, że nie tylko wyodrębnia znaki, ale także rozumie wiele warstw informacji: treść tekstową, elementy nietekstowe (pola wyboru, wykresy, podpisy, formuły), układ (strukturę strony, tabele, formularze) i styl (czcionki, wyróżnienia itp.). Model ten, podobnie jak ChatGPT, może odpowiadać na pytania wizualne zadawane na obrazach dokumentów, bez konieczności wcześniejszego uczenia się konkretnych formularzy.

Komentarz (0)