Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC plasuje się w pierwszej dwunastce światowych systemów rozpoznawania tekstu.

Model CATI-VLM (Visual Document Understanding) opracowany przez CMC Institute of Applied Technology (CMC ATI) prześcignął wielu międzynarodowych konkurentów, plasując się w pierwszej dwunastce na świecie i na pierwszym miejscu w Wietnamie w rankingu ogłoszonym niedawno przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Ranking RRC w kategorii DocVQA, czerwiec 2025 r.

Ranking RRC w kategorii DocVQA, czerwiec 2025 r.

W obliczu gwałtownej transformacji cyfrowej i wdrażania sztucznej inteligencji w Wietnamie, technologia OCR (Optycznego Rozpoznawania Znaków) odgrywa coraz ważniejszą rolę w digitalizacji dokumentów, automatyzacji procesów biznesowych, obniżaniu kosztów i poprawie efektywności zarządzania. Jednak biorąc pod uwagę specyfikę języka wietnamskiego, w tym jego akcenty i charakter pisma odręcznego, problem rozpoznawania wykracza poza samo „odczytywanie” znaków; wymaga modelu zdolnego do kompleksowego zrozumienia kontekstu.

Niedawno CMC Institute of Applied Technology (CMC ATI) ogłosił, że model CATI-VLM (Visual Document Understanding) – opracowany przez zespół badawczy CMC na podstawie dużego magazynu danych o pojemności 5 TB – wyprzedził wielu międzynarodowych konkurentów i znalazł się w pierwszej dwunastce na świecie oraz w pierwszej dziesiątce w Wietnamie w rankingu opublikowanym przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) to prestiżowy konkurs naukowy (https://rrc.cvc.uab.es/) organizowany przez Computer Vision Centre (CVC) Uniwersytetu Autonomicznego w Barcelonie (UAB) w Hiszpanii, światowej sławy placówkę badawczą w dziedzinie widzenia komputerowego.

Zainicjowany w 2011 roku konkurs odbywa się corocznie w ramach Międzynarodowej Konferencji Analizy i Rozpoznawania Tekstu (ICDAR) – jednego z wiodących światowych forów w dziedzinie wizji komputerowej. Konkurs przyciąga licznych naukowców i inżynierów z uniwersytetów, instytutów badawczych i dużych korporacji technologicznych, takich jak Uniwersytet Tsinghua, Hyundai Motor Group i Tencent. Zadania konkursowe RRC mają na celu promowanie postępu technologicznego, ściśle powiązanego z problemami praktycznymi, od tłumaczeń i zarządzania danymi w przedsiębiorstwie, po analizę urbanistyczną i przetwarzanie dokumentów historycznych.

Dr Dang Minh Tuan, dyrektor CMC ATI, dodał: „Jesteśmy zachwyceni, że potencjał badawczy zespołu CMC został potwierdzony w prestiżowym, globalnym konkursie, takim jak RRC. W krótkim czasie zespół badawczy osiągnął wysoką pozycję w rankingu, co świadczy o jego międzynarodowej konkurencyjności w porównaniu z czołowymi firmami z krajów rozwiniętych. Co ważniejsze, jest to wyraźny dowód naszej zdolności do opanowania technologii w celu rozwiązania konkretnych problemów związanych z językiem wietnamskim i specjalistycznymi dziedzinami w Wietnamie”.

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

Dr Dang Minh Tuan, dyrektor CMC ATI.

CATI-VLM różni się od tradycyjnego OCR tym, że nie tylko wyodrębnia znaki, ale także rozumie wiele warstw informacji: treść tekstową, elementy nietekstowe (pola wyboru, wykresy, podpisy, formuły), układ (strukturę strony, tabele, formularze) oraz styl (czcionki, wyróżnienia itp.). Model ten, podobnie jak ChatGPT, może odpowiadać na pytania wizualne zadawane na obrazach dokumentów, bez konieczności wcześniejszego uczenia się każdego konkretnego formularza.

Warto zauważyć, że w rankingu RRC model CATI-VLM, z zaledwie 3 miliardami parametrów, osiągnął najwyższą dokładność w 4 z 7 zestawów danych, przewyższając tym samym wiele modeli dużych firm technologicznych, takich jak Deepseek (27 miliardów parametrów), GPT-4 Vision Turbo + Amazon Textract OCR (34 najlepsze) i Baidu (22 najlepsze).

Osiągnięcie to jest również dowodem praktycznego podejścia, skoncentrowanego na opanowaniu podstawowych technologii i optymalizacji modeli w celu dostosowania ich do warunków infrastrukturalnych Wietnamu, zamiast pogoni za parametrami skalowalności.

obraz-2.jpg

Przykład formularza podania o przyjęcie na uniwersytet

obraz-3.jpg

Tekst udało się zidentyfikować na podstawie pisma odręcznego widocznego na powyższym obrazku.

Pan Nguyen Trung Chinh, prezes zarządu i dyrektor wykonawczy CMC Technology Group, podkreślił: „To rezultat ponad dekady konsekwentnych inwestycji w badania i rozwój (B+R) w dziedzinie technologii. Wysokie osiągnięcia CMC na międzynarodowej arenie technologicznej potwierdzają słuszność naszej strategii opanowania wietnamskiej technologii, w połączeniu z naszym nastawieniem na transformację i ekspansję w dziedzinie sztucznej inteligencji na rynku globalnym. Wierzymy, że wietnamski wywiad jest w pełni zdolny do konkurowania z globalnymi gigantami technologicznymi, tworząc godną pozycję na światowej mapie technologicznej”.

Rozwiązanie CATI-VLM zostanie zastosowane w ekosystemie produktów C.OpenAI, obejmującym: wirtualnego asystenta CLS do przeglądania dokumentów prawnych, platformę cyfrowej transformacji dokumentów CMC SmartDoc, system zarządzania wiedzą CMC KMS, zautomatyzowany system raportowania dla inteligentnych biur oraz aplikacje nowej generacji Agentic Documents.

QUANG HUY

Źródło: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tym samym temacie

W tej samej kategorii

Od tego samego autora

Dziedzictwo

Postać

Firmy

Sprawy bieżące

System polityczny

Lokalny

Produkt

Happy Vietnam
Spokojne miejsce

Spokojne miejsce

Hoi An – gdzie każda cegła i dachówka opowiada historię.

Hoi An – gdzie każda cegła i dachówka opowiada historię.

Wietnamscy studenci

Wietnamscy studenci