Ranking RRC w kategorii DocVQA 6/2025.
W kontekście transformacji cyfrowej i transformacji zastosowań sztucznej inteligencji w Wietnamie, technologia OCR (Optical Character Recognition) odgrywa coraz ważniejszą rolę w digitalizacji dokumentów, automatyzacji procesów biznesowych, obniżaniu kosztów i poprawie efektywności zarządzania. Jednak biorąc pod uwagę specyfikę wietnamskiego akcentu i pisma odręcznego, problem rozpoznawania nie ogranicza się do „odczytu słów”, ale wymaga, aby model był w stanie zrozumieć kontekst w sposób kompleksowy.
Niedawno CMC Technology Application Institute (CMC ATI) ogłosił model CATI-VLM (Visual Document Understanding) opracowany przez zespół badawczy w oparciu o 5 TB dużego magazynu danych, wyprzedzając wielu międzynarodowych konkurentów i znajdując się w pierwszej dwunastce na świecie oraz pierwszym miejscu w Wietnamie w rankingu ogłoszonym przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) to prestiżowy naukowy plac zabaw (https://rrc.cvc.uab.es/) organizowany przez Computer Vision Center (CVC) Uniwersytetu Autonomicznego w Barcelonie (UAB) w Hiszpanii, prestiżową placówkę badawczą na świecie w dziedzinie komputerowego widzenia.
Konkurs został zainicjowany w 2011 roku i odbywa się corocznie w ramach Międzynarodowej Konferencji Analizy i Rozpoznawania Tekstu (ICDAR) – jednego z wiodących światowych forów w dziedzinie wizji komputerowej. Konkurs przyciąga liczną rzeszę naukowców i inżynierów z uniwersytetów, instytutów badawczych i dużych korporacji technologicznych, takich jak Uniwersytet Tsinghua, Hyundai Motor Group, Tencent... Problemy RRC mają na celu promowanie postępu technologicznego, ściśle powiązanego z praktycznymi zagadnieniami, od tłumaczeń, zarządzania danymi w przedsiębiorstwie, po analizę urbanistyczną i przetwarzanie dokumentów historycznych.
Dr Dang Minh Tuan, dyrektor CMC ATI, dodał: „Jesteśmy bardzo zadowoleni, że potencjał badawczy zespołu CMC został potwierdzony w prestiżowym globalnym ośrodku badawczym, takim jak RRC. W krótkim czasie zespół badawczy osiągnął wysokie pozycje w rankingach, co dowodzi jego międzynarodowej konkurencyjności w porównaniu z dużymi firmami z krajów rozwiniętych. Co ważniejsze, jest to wyraźny dowód na to, że potrafi on opanować technologię do rozwiązywania specyficznych problemów wietnamskich i specjalistycznych w Wietnamie”.
Dr Dang Minh Tuan, dyrektor CMC ATI.
CATI-VLM różni się od tradycyjnego OCR tym, że nie tylko wyodrębnia znaki, ale także rozumie wiele warstw informacji: treść tekstową, elementy nietekstowe (pola wyboru, wykresy, podpisy, formuły), układ (strukturę strony, tabele, formularze) i styl (czcionki, wyróżnienia itp.). Model ten, podobnie jak ChatGPT, może odpowiadać na pytania wizualne zadawane na obrazach dokumentów, bez konieczności wcześniejszego uczenia się konkretnych formularzy.
Warto zauważyć, że w rankingu RRC, CATI-VLM z zaledwie 3 miliardami parametrów osiągnął najwyższą dokładność w zestawach danych 4/7, przewyższając tym samym wiele modeli dużych firm technologicznych, takich jak Deepseek (27 miliardów parametrów), GPT-4 Vision Turbo + Amazon Textract OCR (34 najlepsze) lub Baidu (22 najlepsze).
Osiągnięcie to jest również dowodem praktycznego podejścia, skoncentrowanego na opanowaniu podstawowej technologii i optymalizacji modelu w celu dostosowania go do warunków infrastrukturalnych Wietnamu, zamiast pogoni za skalą parametrów.
Przykładowy formularz podania o przyjęcie na studia
Tekst na powyższym obrazku rozpoznano na podstawie pisma odręcznego.
Pan Nguyen Trung Chinh, Przewodniczący Rady Dyrektorów i Prezes Wykonawczy CMC Technology Group, podkreślił: „To rezultat ponad dekady konsekwentnych inwestycji w badania i rozwój technologii (B+R). Wysokie osiągnięcia CMC na międzynarodowym rynku technologicznym potwierdzają strategię opanowania wietnamskiej technologii, w połączeniu z ukierunkowaniem na transformację AI i wejście na rynek globalny. Wierzymy, że wietnamski wywiad jest w pełni zdolny do konkurowania z globalnymi gigantami technologicznymi, tworząc godną pozycję na światowej mapie technologicznej”.
CATI-VLM zostanie zastosowane w łańcuchu produktów ekosystemu C.OpenAI, obejmującym: wirtualnego asystenta CLS do przeglądania dokumentów prawnych, platformę cyfrowej konwersji dokumentów CMC SmartDoc, system zarządzania wiedzą CMC KMS, automatyczny system raportowania dla inteligentnych biur oraz aplikacje nowej generacji Agentic Documents.
QUANG HUY
Źródło: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Komentarz (0)