Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

CMC plasuje się w pierwszej dwunastce najlepszych na świecie rozwiązań do rozpoznawania tekstu

Model CATI-VLM (Visual Document Understanding) opracowany przez CMC Technology Application Institute (CMC ATI) wyprzedził wielu międzynarodowych konkurentów i w czerwcu 2025 r. znalazł się w pierwszej dwunastce na świecie oraz w pierwszej dwunastce w Wietnamie w rankingu Robust Reading Competition (RRC) w kategorii Document Visual Question Answering (DocVQA).

Báo Nhân dânBáo Nhân dân02/07/2025

Ranking RRC w kategorii DocVQA 6/2025.

Ranking RRC w kategorii DocVQA 6/2025.

W kontekście transformacji cyfrowej i transformacji zastosowań sztucznej inteligencji w Wietnamie, technologia OCR (Optical Character Recognition) odgrywa coraz ważniejszą rolę w digitalizacji dokumentów, automatyzacji procesów biznesowych, obniżaniu kosztów i poprawie efektywności zarządzania. Jednak biorąc pod uwagę specyfikę wietnamskiego akcentu i pisma odręcznego, problem rozpoznawania nie ogranicza się do „odczytu słów”, ale wymaga, aby model był w stanie zrozumieć kontekst w sposób kompleksowy.

Niedawno CMC Technology Application Institute (CMC ATI) ogłosił model CATI-VLM (Visual Document Understanding) opracowany przez zespół badawczy w oparciu o 5 TB dużego magazynu danych, wyprzedzając wielu międzynarodowych konkurentów i znajdując się w pierwszej dwunastce na świecie oraz pierwszym miejscu w Wietnamie w rankingu ogłoszonym przez Robust Reading Competition (RRC) w czerwcu 2025 r. w kategorii Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) to prestiżowy naukowy plac zabaw (https://rrc.cvc.uab.es/) organizowany przez Computer Vision Center (CVC) Uniwersytetu Autonomicznego w Barcelonie (UAB) w Hiszpanii, prestiżową placówkę badawczą na świecie w dziedzinie komputerowego widzenia.

Konkurs został zainicjowany w 2011 roku i odbywa się corocznie w ramach Międzynarodowej Konferencji Analizy i Rozpoznawania Tekstu (ICDAR) – jednego z wiodących światowych forów w dziedzinie wizji komputerowej. Konkurs przyciąga liczną rzeszę naukowców i inżynierów z uniwersytetów, instytutów badawczych i dużych korporacji technologicznych, takich jak Uniwersytet Tsinghua, Hyundai Motor Group, Tencent... Problemy RRC mają na celu promowanie postępu technologicznego, ściśle powiązanego z praktycznymi zagadnieniami, od tłumaczeń, zarządzania danymi w przedsiębiorstwie, po analizę urbanistyczną i przetwarzanie dokumentów historycznych.

Dr Dang Minh Tuan, dyrektor CMC ATI, dodał: „Jesteśmy bardzo zadowoleni, że potencjał badawczy zespołu CMC został potwierdzony w prestiżowym globalnym ośrodku badawczym, takim jak RRC. W krótkim czasie zespół badawczy osiągnął wysokie pozycje w rankingach, co dowodzi jego międzynarodowej konkurencyjności w porównaniu z dużymi firmami z krajów rozwiniętych. Co ważniejsze, jest to wyraźny dowód na to, że potrafi on opanować technologię do rozwiązywania specyficznych problemów wietnamskich i specjalistycznych w Wietnamie”.

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

Dr Dang Minh Tuan, dyrektor CMC ATI.

CATI-VLM różni się od tradycyjnego OCR tym, że nie tylko wyodrębnia znaki, ale także rozumie wiele warstw informacji: treść tekstową, elementy nietekstowe (pola wyboru, wykresy, podpisy, formuły), układ (strukturę strony, tabele, formularze) i styl (czcionki, wyróżnienia itp.). Model ten, podobnie jak ChatGPT, może odpowiadać na pytania wizualne zadawane na obrazach dokumentów, bez konieczności wcześniejszego uczenia się konkretnych formularzy.

Warto zauważyć, że w rankingu RRC, CATI-VLM z zaledwie 3 miliardami parametrów osiągnął najwyższą dokładność w zestawach danych 4/7, przewyższając tym samym wiele modeli dużych firm technologicznych, takich jak Deepseek (27 miliardów parametrów), GPT-4 Vision Turbo + Amazon Textract OCR (34 najlepsze) lub Baidu (22 najlepsze).

Osiągnięcie to jest również dowodem praktycznego podejścia, skoncentrowanego na opanowaniu podstawowej technologii i optymalizacji modelu w celu dostosowania go do warunków infrastrukturalnych Wietnamu, zamiast pogoni za skalą parametrów.

obraz-2.jpg

Przykładowy formularz podania o przyjęcie na studia

obraz-3.jpg

Tekst na powyższym obrazku rozpoznano na podstawie pisma odręcznego.

Pan Nguyen Trung Chinh, Przewodniczący Rady Dyrektorów i Prezes Wykonawczy CMC Technology Group, podkreślił: „To rezultat ponad dekady konsekwentnych inwestycji w badania i rozwój technologii (B+R). Wysokie osiągnięcia CMC na międzynarodowym rynku technologicznym potwierdzają strategię opanowania wietnamskiej technologii, w połączeniu z ukierunkowaniem na transformację AI i wejście na rynek globalny. Wierzymy, że wietnamski wywiad jest w pełni zdolny do konkurowania z globalnymi gigantami technologicznymi, tworząc godną pozycję na światowej mapie technologicznej”.

CATI-VLM zostanie zastosowane w łańcuchu produktów ekosystemu C.OpenAI, obejmującym: wirtualnego asystenta CLS do przeglądania dokumentów prawnych, platformę cyfrowej konwersji dokumentów CMC SmartDoc, system zarządzania wiedzą CMC KMS, automatyczny system raportowania dla inteligentnych biur oraz aplikacje nowej generacji Agentic Documents.

QUANG HUY

Źródło: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


Komentarz (0)

No data
No data

W tym samym temacie

W tej samej kategorii

Hanoi w historycznych dniach jesieni: Atrakcyjny cel podróży dla turystów
Zafascynowany cudami koralowców pory suchej w morzu Gia Lai i Dak Lak
2 miliardy wyświetleń na TikToku nazwane Le Hoang Hiep: najgorętszy żołnierz z A50 do A80
Żołnierze ze wzruszeniem żegnają się z Hanoi po ponad 100 dniach misji A80

Od tego samego autora

Dziedzictwo

Postać

Biznes

No videos available

Aktualności

System polityczny

Lokalny

Produkt