W kontekście transformacji cyfrowej i sztucznej inteligencji (AI) w Wietnamie, technologia OCR (optycznego rozpoznawania znaków) odgrywa coraz ważniejszą rolę w digitalizacji dokumentów, automatyzacji procesów biznesowych, obniżaniu kosztów i poprawie efektywności zarządzania. Jednak biorąc pod uwagę specyfikę wietnamskiego akcentu i pisma odręcznego, problem rozpoznawania nie ogranicza się do „odczytywania słów”, ale wymaga, aby model był w stanie zrozumieć kontekst w sposób kompleksowy.
Niedawno CMC Technology Application Institute (CMC ATI) ogłosił, że model CATI-VLM (Visual Document Understanding) opracowany przez zespół badawczy w oparciu o 5 TB dużego magazynu danych znalazł się w pierwszej dwunastce na świecie i na pierwszym miejscu w Wietnamie w rankingu ogłoszonym przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).
Ranking RRC w kategorii DocVQA 6/2025.
Robust Reading Competition (RRC) to prestiżowy konkurs naukowy (https://rrc.cvc.uab.es/) organizowany przez Centrum Wizji Komputerowej (CVC) Uniwersytetu Autonomicznego w Barcelonie (UAB) w Hiszpanii, prestiżową światową placówkę badawczą w dziedzinie wizji komputerowej. Zainicjowany w 2011 roku, stale towarzyszący Międzynarodowej Konferencji Analizy i Rozpoznawania Tekstu ICDAR – jednemu z największych na świecie forów poświęconych analizie dokumentów i wizji komputerowej, konkurs stał się ważnym wydarzeniem, przyciągającym naukowców, inżynierów z prestiżowych uniwersytetów, instytutów badawczych i firm technologicznych, takich jak Uniwersytet Tsinghua, Hyundai Motor Group i Tencent. Zadania RRC mają na celu promowanie postępu technologicznego, ściśle powiązanego z praktycznymi problemami, od tłumaczeń, zarządzania danymi w przedsiębiorstwach, po analizę urbanistyczną i przetwarzanie dokumentów historycznych.
Dr Dang Minh Tuan, dyrektor CMC ATI, dodał: „Potencjał badawczy zespołu CMC został potwierdzony prestiżowym, globalnym ośrodkiem badawczym, takim jak RRC. Jesteśmy dumni, że w tak krótkim czasie zespół osiągnął wysoką pozycję, stając ramię w ramię z dużymi firmami z krajów rozwiniętych. Co ważniejsze, jest to wyraźny dowód na to, że zespół jest w stanie opanować technologię do rozwiązywania specyficznych problemów wietnamskich i specjalistycznych w Wietnamie”.
CATI-VLM różni się od tradycyjnego OCR tym, że nie tylko wyodrębnia znaki, ale także rozumie wiele warstw informacji: treść tekstową, elementy nietekstowe (pola wyboru, wykresy, podpisy, formuły), układ (strukturę strony, tabele, formularze) i styl (czcionki, wyróżnienia itp.). Model ten, podobnie jak ChatGPT, może odpowiadać na pytania wizualne zadawane na obrazach dokumentów, bez konieczności wcześniejszego uczenia się konkretnych formularzy.
Według gazety News and People
Źródło: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Komentarz (0)