Peringkat RRC dalam kategori DocVQA, Juni 2025.
Di tengah transformasi digital yang pesat dan adopsi kecerdasan buatan di Vietnam, teknologi OCR (Optical Character Recognition) memainkan peran yang semakin penting dalam digitalisasi dokumen, otomatisasi proses bisnis, penghematan biaya, dan peningkatan efisiensi manajemen. Namun, mengingat karakteristik unik bahasa Vietnam, termasuk aksen dan tulisan tangannya, masalah pengenalan karakter melampaui sekadar 'membaca' karakter; hal ini membutuhkan model yang mampu memahami konteks secara komprehensif.
Baru-baru ini, CMC Institute of Applied Technology (CMC ATI) mengumumkan bahwa model CATI-VLM (Visual Document Understanding) – yang dikembangkan oleh tim risetnya dari gudang data besar berukuran 5TB – telah melampaui banyak pesaing internasional dan mencapai peringkat 12 teratas secara global dan peringkat 1 di Vietnam dalam peringkat yang diterbitkan oleh Robust Reading Competition (RRC) pada Juni 2025 dalam kategori Document Visual Question Answering (DocVQA).
Kompetisi Membaca Tangguh (Robust Reading Competition/RRC) adalah kompetisi ilmiah bergengsi (https://rrc.cvc.uab.es/) yang diselenggarakan oleh Pusat Visi Komputer (Computer Vision Centre/CVC) dari Universitas Autònoma de Barcelona (UAB), Spanyol, sebuah lembaga penelitian ternama di dunia di bidang visi komputer.
Dimulai pada tahun 2011, kompetisi ini diadakan setiap tahun dalam kerangka Konferensi Internasional tentang Analisis dan Pengenalan Teks (ICDAR) – salah satu forum terkemuka dunia di bidang visi komputer. Kompetisi ini menarik banyak peneliti dan insinyur dari universitas, lembaga penelitian, dan perusahaan teknologi besar seperti Universitas Tsinghua, Hyundai Motor Group, dan Tencent. Masalah-masalah dalam RRC dirancang untuk mendorong kemajuan teknologi, yang terkait erat dengan masalah praktis mulai dari penerjemahan dan manajemen data perusahaan hingga analisis perkotaan dan pengolahan dokumen historis.
Dr. Dang Minh Tuan, Direktur CMC ATI, menyampaikan: "Kami sangat gembira bahwa kemampuan riset tim CMC telah diakui melalui kompetisi global bergengsi seperti RRC. Dalam waktu singkat, tim riset telah mencapai peringkat tinggi, menunjukkan daya saing internasional dengan nama-nama besar dari negara-negara maju. Lebih penting lagi, ini adalah bukti nyata kemampuan kami untuk menguasai teknologi guna memecahkan masalah spesifik yang berkaitan dengan bahasa Vietnam dan bidang-bidang khusus di Vietnam."
Dr Dang Minh Tuan, Direktur CMC ATI.
CATI-VLM berbeda dari OCR tradisional karena tidak hanya mengekstrak karakter tetapi juga memahami berbagai lapisan informasi: konten teks, elemen non-teks (kotak centang, bagan, tanda tangan, rumus), tata letak (struktur halaman, tabel, formulir), dan gaya (font, penyorotan, dll.). Model ini dapat menjawab pertanyaan visual yang diajukan pada gambar dokumen, mirip dengan ChatGPT, tanpa perlu mempelajari setiap formulir spesifik sebelumnya.
Yang perlu diperhatikan, dalam peringkat RRC, CATI-VLM, dengan hanya 3 miliar parameter, mencapai akurasi tertinggi dalam 4 dari 7 dataset, mengungguli banyak model Big Tech seperti Deepseek (27 miliar parameter), GPT-4 Vision Turbo + Amazon Textract OCR (peringkat 34), dan Baidu (peringkat 22).
Pencapaian ini juga menunjukkan pendekatan praktis, yang berfokus pada penguasaan teknologi inti dan optimalisasi model agar sesuai dengan kondisi infrastruktur Vietnam, alih-alih mengejar skalabilitas dan parameter.
Contoh formulir pendaftaran penerimaan universitas
Teks tersebut telah diidentifikasi dari tulisan tangan pada gambar di atas.
Bapak Nguyen Trung Chinh, Ketua Dewan Direksi dan Ketua Eksekutif CMC Technology Group, menekankan: "Ini adalah hasil dari lebih dari satu dekade investasi berkelanjutan dalam penelitian dan pengembangan (R&D) teknologi. Prestasi tinggi CMC di arena teknologi internasional menegaskan strategi kami untuk menguasai teknologi Vietnam, ditambah dengan orientasi kami terhadap transformasi AI dan ekspansi ke pasar global. Kami percaya bahwa kecerdasan Vietnam sepenuhnya mampu bersaing dengan perusahaan teknologi besar global, menciptakan posisi yang layak di peta teknologi dunia."
CATI-VLM akan diterapkan dalam ekosistem produk C.OpenAI, termasuk: asisten virtual CLS untuk meninjau dokumen hukum, CMC SmartDoc - platform transformasi dokumen digital, sistem manajemen pengetahuan CMC KMS, sistem pelaporan otomatis untuk kantor pintar, dan aplikasi Agentic Documents generasi berikutnya.
QUANG HUY
Sumber: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Komentar (0)