Vietnam'daki dijital dönüşüm ve yapay zekâ (YZ) dönüşümü bağlamında, OCR teknolojisi (optik karakter tanıma), belgelerin dijitalleştirilmesinde, iş süreçlerinin otomatikleştirilmesinde, maliyet tasarrufunda ve yönetim verimliliğinin artırılmasında giderek daha önemli bir rol oynamaktadır. Ancak, aksanlı ve el yazısı olan Vietnamlıların özellikleri göz önüne alındığında, tanıma sorunu yalnızca "kelimeleri okumakla" sınırlı kalmamakta, modelin bağlamı kapsamlı bir şekilde anlama becerisine sahip olmasını gerektirmektedir.
Geçtiğimiz günlerde CMC Teknoloji Uygulama Enstitüsü (CMC ATI), araştırma ekibinin 5TB büyük veri ambarından geliştirdiği CATI-VLM (Görsel Belge Anlama) modelinin, Robust Reading Competition (RRC) tarafından Haziran 2025'te açıklanan sıralamalarda Belge Görsel Soru Cevaplama (DocVQA) kategorisinde dünyada ilk 12'ye, Vietnam'da ise ilk 1'e gireceğini duyurdu.
DocVQA kategorisinde RRC sıralaması 6/2025.
Güçlü Okuma Yarışması (RRC), bilgisayarlı görme alanında dünya çapında saygın bir araştırma merkezi olan Barselona Özerk Üniversitesi (UAB) bünyesindeki Bilgisayarlı Görme Merkezi (CVC) tarafından düzenlenen saygın bir bilimsel oyun alanıdır (https://rrc.cvc.uab.es/). 2011 yılında başlatılan ve dünyanın en büyük belge analizi ve bilgisayarlı görme forumlarından biri olan Uluslararası Metin Analizi ve Tanıma Konferansı ICDAR'a eşlik eden yarışma, Tsinghua Üniversitesi, Hyundai Motor Group ve Tencent gibi saygın üniversitelerden, araştırma enstitülerinden ve teknoloji şirketlerinden araştırmacıları, mühendisleri ve mühendisleri çeken önemli bir etkinlik haline gelmiştir. RRC'nin görevleri, çeviri, kurumsal veri yönetimi, kentsel analiz ve tarihi belge işleme gibi pratik sorunlarla yakından bağlantılı teknolojik ilerlemeyi teşvik etmek üzere tasarlanmıştır.
CMC ATI Direktörü Dr. Dang Minh Tuan şunları söyledi: "CMC ekibinin araştırma kapasitesi, RRC gibi prestijli bir küresel platform sayesinde kanıtlanmıştır. Ekibin kısa sürede gelişmiş ülkelerdeki büyük isimlerle omuz omuza vererek yüksek bir sıralamaya ulaşmasından gurur duyuyoruz. Daha da önemlisi, bu, Vietnam'ın ve Vietnam'daki özel alanların belirli sorunlarını çözmek için teknolojiye hakim olma yeteneğinin açık bir göstergesidir."
CATI-VLM, yalnızca karakterleri ayıklaması değil, aynı zamanda birden fazla bilgi katmanını da anlamasıyla geleneksel OCR'den farklıdır: metin içeriği, metin dışı öğeler (onay kutuları, onay kutuları, grafikler, imzalar, formüller), düzen (sayfa yapısı, tablolar, formlar) ve stil (yazı tipleri, vurgular vb.). Model, ChatGPT'ye benzer şekilde, belge görüntüleri üzerinde sorulan görsel soruları, önceden belirli formları öğrenmeden yanıtlayabilir.
News and People Gazetesi'ne göre
Kaynak: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051






Yorum (0)