Peringkat RRC dalam kategori DocVQA 6/2025.
Dalam konteks transformasi digital dan transformasi aplikasi kecerdasan buatan di Vietnam, teknologi OCR (Pengenalan Karakter Optik) memainkan peran yang semakin penting dalam digitalisasi dokumen, otomatisasi proses bisnis, penghematan biaya, dan peningkatan efisiensi manajemen. Namun, dengan karakteristik orang Vietnam yang memiliki aksen dan tulisan tangan, masalah pengenalan tidak hanya terbatas pada 'membaca kata', tetapi juga membutuhkan model yang mampu memahami konteks secara komprehensif.
Baru-baru ini, CMC Technology Application Institute (CMC ATI) mengumumkan model CATI-VLM (Visual Document Understanding) - yang dikembangkan oleh tim peneliti dari gudang data besar berukuran 5 TB, melampaui banyak pesaing internasional untuk mencapai 12 teratas di dunia dan teratas 1 di Vietnam dalam peringkat yang baru saja diumumkan oleh Robust Reading Competition (RRC) pada bulan Juni 2025 dalam kategori Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) adalah arena bermain ilmiah bergengsi, (https://rrc.cvc.uab.es/) yang diselenggarakan oleh Computer Vision Center (CVC) dari Universitat Autònoma de Barcelona (UAB) Spanyol, sebuah fasilitas penelitian bergengsi di dunia dalam bidang visi komputer.
Kompetisi ini dimulai pada tahun 2011 dan diadakan setiap tahun dalam kerangka Konferensi Internasional tentang Analisis dan Pengenalan Teks (ICDAR) - salah satu forum terkemuka dunia di bidang visi komputer. Kompetisi ini menarik banyak peneliti dan insinyur dari universitas, lembaga penelitian, dan perusahaan teknologi besar seperti Universitas Tsinghua, Hyundai Motor Group, Tencent... Permasalahan RRC dirancang untuk mendorong kemajuan teknologi, yang berkaitan erat dengan permasalahan praktis mulai dari penerjemahan, manajemen data perusahaan hingga analisis perkotaan dan pemrosesan dokumen historis.
Dr. Dang Minh Tuan, Direktur CMC ATI, menyampaikan: "Kami sangat senang bahwa kapasitas riset tim CMC telah diakui melalui arena global bergengsi seperti RRC. Hanya dalam waktu singkat, tim riset ini telah meraih peringkat tinggi, menunjukkan daya saing internasionalnya dengan nama-nama besar dari negara-negara maju. Lebih penting lagi, ini merupakan bukti nyata kemampuan mereka dalam menguasai teknologi untuk memecahkan permasalahan spesifik di Vietnam dan bidang-bidang khusus di Vietnam."
Dr Dang Minh Tuan, Direktur CMC ATI.
CATI-VLM berbeda dari OCR tradisional karena tidak hanya mengekstrak karakter, tetapi juga memahami berbagai lapisan informasi: konten teks, elemen non-teks (kotak centang, kotak centang, bagan, tanda tangan, rumus), tata letak (struktur halaman, tabel, formulir), dan gaya (font, sorotan, dll.). Model ini dapat menjawab pertanyaan visual yang diajukan pada gambar dokumen, mirip dengan ChatGPT, tanpa harus mempelajari formulir tertentu sebelumnya.
Khususnya, pada peringkat RRC, CATI-VLM dengan hanya 3 miliar parameter mencapai akurasi tertinggi dalam set data 4/7, melampaui banyak model Big Tech seperti Deepseek (27 miliar parameter), GPT-4 Vision Turbo + Amazon Textract OCR (34 teratas) atau Baidu (22 teratas).
Pencapaian tersebut juga menunjukkan pendekatan praktis, dengan fokus pada penguasaan teknologi inti, mengoptimalkan model agar sesuai dengan kondisi infrastruktur Vietnam alih-alih mengejar skala parameter.
Contoh Formulir Pendaftaran Perguruan Tinggi
Teks telah dikenali dari tulisan tangan pada gambar di atas.
Bapak Nguyen Trung Chinh, Ketua Dewan Direksi sekaligus Ketua Eksekutif CMC Technology Group, menekankan: "Ini merupakan hasil dari investasi berkelanjutan selama lebih dari satu dekade dalam penelitian dan pengembangan teknologi (R&D). Pencapaian tinggi CMC di kancah teknologi internasional menegaskan strategi penguasaan teknologi Vietnam, yang dipadukan dengan orientasi Transformasi AI dan memasuki pasar global. Kami yakin bahwa intelijen Vietnam sepenuhnya mampu berdiri sejajar dengan Big Tech global, menciptakan posisi yang layak di peta teknologi dunia."
CATI-VLM akan diterapkan dalam rantai produk ekosistem C.OpenAI, termasuk: asisten virtual CLS untuk meninjau dokumen hukum, CMC SmartDoc - platform konversi dokumen digital, sistem manajemen pengetahuan CMC KMS, sistem pelaporan otomatis untuk kantor pintar dan aplikasi Agentic Documents generasi baru.
QUANG HUY
Sumber: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Komentar (0)