Transformasi AI di Vietnam sedang berlangsung pesat, teknologi OCR (pengenalan karakter optik) memainkan peran yang semakin penting dalam digitalisasi dokumen. Foto: Ilustrasi
Baru-baru ini, CMC Technology Application Institute (CMC ATI) mengumumkan model CATI-VLM (Visual Document Understanding) yang dikembangkan oleh tim peneliti dari gudang data besar berukuran 5 TB, mencapai Top 12 di dunia dan Top 1 di Vietnam dalam peringkat yang baru saja diumumkan oleh Robust Reading Competition (RRC) pada bulan Juni 2025 dalam kategori Document Visual Question Answering (DocVQA).
Bapak Dang Minh Tuan, Direktur CMC ATI, menyampaikan: "Kami sangat senang bahwa kapasitas riset tim CMC telah diakui melalui ajang bergengsi global seperti RRC. Kami bangga bahwa hanya dalam waktu singkat, tim ini dapat meraih peringkat tinggi, sejajar dengan nama-nama besar dari negara-negara maju. Lebih penting lagi, ini merupakan bukti nyata kemampuan mereka dalam menguasai teknologi untuk memecahkan permasalahan spesifik di Vietnam dan bidang-bidang khusus di Vietnam."
Dalam konteks transformasi digital dan transformasi AI di Vietnam yang berlangsung kuat, teknologi OCR (Optical Character Recognition) memainkan peran yang semakin penting dalam mendigitalkan dokumen, mengotomatiskan proses bisnis, menghemat biaya dan meningkatkan efisiensi manajemen.
Namun, dengan karakteristik bahasa Vietnam yang memiliki aksen dan tulisan tangan, masalah pengenalan tidak berhenti pada 'membaca kata', tetapi mengharuskan model memiliki kemampuan untuk memahami konteks secara komprehensif.
CATI-VLM berbeda dari OCR tradisional karena tidak hanya mengekstrak karakter, tetapi juga memahami beberapa lapisan informasi: konten teks, elemen non-teks (kotak centang, kotak centang, bagan, tanda tangan, rumus), tata letak (struktur halaman, tabel, formulir) dan gaya (font, sorotan…).
Model tersebut dapat menjawab pertanyaan visual yang diajukan pada gambar dokumen, mirip dengan ChatGPT, tanpa perlu mempelajari bentuk spesifik terlebih dahulu.
Robust Reading Competition (RRC) merupakan arena bermain ilmiah bergengsi yang diselenggarakan oleh Computer Vision Center di Universitat Autònoma de Barcelona (UAB) Spanyol, sebuah fasilitas penelitian bergengsi di dunia dalam bidang visi komputer.
Dimulai pada tahun 2011, selalu menyertai Konferensi Internasional tentang Analisis dan Pengenalan Teks ICDAR - salah satu forum terbesar di dunia tentang analisis dokumen dan visi komputer, kompetisi ini telah menjadi acara penting, yang menarik para peneliti, insinyur dari universitas bergengsi, lembaga penelitian, dan perusahaan teknologi seperti Universitas Tsinghua, Hyundai Motor Group, dan Tencent...
Misi RRC dirancang untuk mendorong kemajuan teknologi, berlandaskan pada masalah dunia nyata mulai dari penerjemahan dan pengelolaan data perusahaan hingga analisis perkotaan dan pemrosesan dokumen historis.
Dari pekerjaan hingga mengasuh anak: Bagaimana CEO teknologi menggunakan AI setiap hariDari Jensen Huang hingga Tim Cook, CEO teknologi paling berkuasa di dunia memanfaatkan AI dalam kehidupan sehari-hari mereka.
Sumber: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Komentar (0)