Vietnam'da dijital dönüşüm ve yapay zekanın (YZ) hızlı gelişimi bağlamında, optik karakter tanıma (OCR) teknolojisi, belgelerin dijitalleştirilmesinde, iş süreçlerinin otomasyonunda, maliyetlerin düşürülmesinde ve yönetim verimliliğinin artırılmasında giderek daha önemli bir rol oynamaktadır. Bununla birlikte, aksanları ve el yazısı da dahil olmak üzere Vietnam dilinin benzersiz özellikleri göz önüne alındığında, tanıma problemi sadece 'metni okumaktan' öteye geçmektedir; bağlamı kapsamlı bir şekilde anlayabilen bir model gerektirmektedir.
Yakın zamanda, CMC Uygulamalı Teknoloji Enstitüsü (CMC ATI), araştırma ekibi tarafından 5 TB'lık bir veri deposundan geliştirilen CATI-VLM (Görsel Belge Anlama) modelinin, Haziran 2025'te düzenlenen Sağlam Okuma Yarışması'nda (RRC) açıklanan Belge Görsel Soru Cevaplama (DocVQA) kategorisinde küresel olarak ilk 12'ye ve Vietnam'da ise 1. sıraya yerleştiğini duyurdu.
RRC'nin DocVQA kategorisindeki sıralaması, Haziran 2025.
Sağlam Okuma Yarışması (RRC), İspanya'daki Autònoma de Barcelona Üniversitesi (UAB) Bilgisayar Görüşü Merkezi (CVC) tarafından düzenlenen prestijli bir bilimsel yarışmadır (https://rrc.cvc.uab.es/). Bilgisayar görüşü alanında dünyaca ünlü bir araştırma kurumu olan UAB, 2011 yılında başlatılmış ve her zaman dünyanın en büyük belge analizi ve bilgisayar görüşü forumlarından biri olan Uluslararası Metin Analizi ve Tanıma Konferansı (ICDAR) ile birlikte düzenlenmektedir. Yarışma, Tsinghua Üniversitesi, Hyundai Motor Grubu ve Tencent gibi prestijli üniversitelerden, araştırma enstitülerinden ve teknoloji şirketlerinden araştırmacıları ve mühendisleri kendine çeken önemli bir etkinlik haline gelmiştir. RRC'nin görevleri, çeviri ve kurumsal veri yönetiminden kentsel analiz ve tarihi belge işlemeye kadar uzanan pratik sorunlarla yakından bağlantılı teknolojik ilerlemeyi teşvik etmek üzere tasarlanmıştır.
CMC ATI Direktörü Dr. Dang Minh Tuan şunları söyledi: "CMC ekibinin araştırma yetenekleri, RRC gibi prestijli bir küresel yarışma aracılığıyla teyit edildi. Ekibin kısa sürede gelişmiş ülkelerden önemli isimlerin yanında yer alarak yüksek bir sıralama elde edebilmesinden gurur duyuyoruz. Daha da önemlisi, bu, Vietnam dili ve Vietnam'daki uzmanlık alanlarıyla ilgili belirli sorunları çözmek için teknolojiyi kullanma yeteneğimizin açık bir kanıtıdır."
CATI-VLM, geleneksel OCR'den farklı olarak yalnızca karakterleri ayıklamakla kalmaz, aynı zamanda metin içeriği, metin dışı öğeler (onay kutuları, grafikler, imzalar, formüller), düzen (sayfa yapısı, tablolar, formlar) ve stil (yazı tipleri, vurgulama vb.) gibi çok katmanlı bilgileri de anlar. Model, ChatGPT'ye benzer şekilde, her bir formu önceden öğrenmeye gerek kalmadan belge görüntülerinde sorulan görsel soruları yanıtlayabilir.
Haber ve Etnik Azınlıklar Gazetesi'ne göre
Kaynak: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051






Yorum (0)