Kedudukan RRC dalam kategori DocVQA, Jun 2025.
Di tengah-tengah transformasi digital yang pesat dan penggunaan kecerdasan buatan di Vietnam, teknologi OCR (Pengecaman Aksara Optik) memainkan peranan yang semakin penting dalam pendigitalan dokumen, automasi proses perniagaan, penjimatan kos dan kecekapan pengurusan yang lebih baik. Walau bagaimanapun, memandangkan ciri-ciri unik bahasa Vietnam, termasuk aksen dan tulisan tangannya, masalah pengecaman melangkaui sekadar 'membaca' aksara; ia memerlukan model yang mampu memahami konteksnya secara komprehensif.
Baru-baru ini, Institut Teknologi Gunaan CMC (CMC ATI) mengumumkan model CATI-VLM (Pemahaman Dokumen Visual) – yang dibangunkan oleh pasukan penyelidikannya daripada gudang data 5TB yang besar – mengatasi banyak pesaing antarabangsa untuk mencapai kedudukan 12 teratas di peringkat global dan 1 teratas di Vietnam dalam ranking yang diterbitkan oleh Robust Reading Competition (RRC) pada Jun 2025 dalam kategori Menjawab Soalan Visual Dokumen (DocVQA).
Pertandingan Membaca Teguh (RRC) merupakan pertandingan saintifik berprestij (https://rrc.cvc.uab.es/) yang dianjurkan oleh Pusat Penglihatan Komputer (CVC) Universiti Autònoma de Barcelona (UAB), Sepanyol, sebuah institusi penyelidikan terkenal di dunia dalam bidang penglihatan komputer.
Dimulakan pada tahun 2011, pertandingan ini diadakan setiap tahun dalam rangka kerja Persidangan Antarabangsa mengenai Analisis dan Pengiktirafan Teks (ICDAR) – salah satu forum terkemuka dunia dalam bidang visi komputer. Pertandingan ini menarik ramai penyelidik dan jurutera dari universiti, institut penyelidikan dan syarikat teknologi utama seperti Universiti Tsinghua, Hyundai Motor Group dan Tencent. Masalah RRC direka bentuk untuk menggalakkan kemajuan teknologi, berkait rapat dengan masalah praktikal daripada terjemahan dan pengurusan data perusahaan kepada analisis bandar dan pemprosesan dokumen sejarah.
Dr. Dang Minh Tuan, Pengarah CMC ATI, berkongsi: "Kami gembira kerana keupayaan penyelidikan pasukan CMC telah diperkukuhkan melalui pertandingan global berprestij seperti RRC. Dalam masa yang singkat, pasukan penyelidikan telah mencapai kedudukan yang tinggi, menunjukkan daya saing antarabangsa dengan nama-nama besar dari negara maju. Lebih penting lagi, ini merupakan bukti jelas keupayaan kami untuk menguasai teknologi bagi menyelesaikan masalah khusus yang berkaitan dengan bahasa Vietnam dan bidang khusus di Vietnam."
Dr Dang Minh Tuan, Pengarah CMC ATI.
CATI-VLM berbeza daripada OCR tradisional kerana ia bukan sahaja mengekstrak aksara tetapi juga memahami pelbagai lapisan maklumat: kandungan teks, elemen bukan teks (kotak tanda, kotak semak, carta, tandatangan, formula), susun atur (struktur halaman, jadual, borang) dan gaya (fon, penyerlahan, dll.). Model ini boleh menjawab soalan visual yang dikemukakan pada imej dokumen, sama seperti ChatGPT, tanpa perlu mempelajari setiap borang tertentu terlebih dahulu.
Terutamanya, pada kedudukan RRC, CATI-VLM, dengan hanya 3 bilion parameter, mencapai ketepatan tertinggi dalam 4 daripada 7 set data, mengatasi banyak model Big Tech seperti Deepseek (27 bilion parameter), GPT-4 Vision Turbo + Amazon Textract OCR (34 teratas), dan Baidu (22 teratas).
Pencapaian ini juga menunjukkan pendekatan praktikal, dengan memberi tumpuan kepada penguasaan teknologi teras dan mengoptimumkan model agar sesuai dengan keadaan infrastruktur Vietnam, dan bukannya mengejar parameter kebolehskalaan.
Contoh borang permohonan kemasukan ke universiti
Teks tersebut telah dikenal pasti daripada tulisan tangan dalam imej di atas.
Encik Nguyen Trung Chinh, Pengerusi Lembaga Pengarah dan Pengerusi Eksekutif CMC Technology Group, menekankan: "Ini adalah hasil daripada pelaburan berterusan lebih daripada satu dekad dalam penyelidikan dan pembangunan (R&D) teknologi. Pencapaian tinggi CMC dalam arena teknologi antarabangsa mengesahkan strategi kami untuk menguasai teknologi Vietnam, digandingkan dengan orientasi kami terhadap transformasi AI dan pengembangan ke pasaran global. Kami percaya bahawa perisikan Vietnam mampu sepenuhnya bersaing dengan Teknologi Besar global, mewujudkan kedudukan yang berbaloi dalam peta teknologi dunia."
CATI-VLM akan diaplikasikan dalam ekosistem produk C.OpenAI, termasuk: pembantu maya CLS untuk menyemak dokumen undang-undang, CMC SmartDoc - platform transformasi dokumen digital, sistem pengurusan pengetahuan CMC KMS, sistem pelaporan automatik untuk pejabat pintar dan aplikasi Agentic Documents generasi akan datang.
QUANG HUY
Sumber: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Komen (0)