DocVQA kategorisinde RRC sıralaması 6/2025.
Vietnam'da dijital dönüşüm ve yapay zekâ uygulama dönüşümünün güçlü bir şekilde yaşandığı bir ortamda, OCR (Optik Karakter Tanıma) teknolojisi, belgelerin dijitalleştirilmesinde, iş süreçlerinin otomatikleştirilmesinde, maliyet tasarrufunda ve yönetim verimliliğinin artırılmasında giderek daha önemli bir rol oynamaktadır. Ancak, aksanlı ve el yazısı olan Vietnamlıların karakteristik özellikleri göz önüne alındığında, tanıma sorunu sadece "kelimeleri okumakla" sınırlı kalmamakta, modelin bağlamı kapsamlı bir şekilde anlama becerisine sahip olmasını gerektirmektedir.
CMC Teknoloji Uygulama Enstitüsü (CMC ATI), 5TB büyüklüğündeki bir veri ambarından araştırma ekibi tarafından geliştirilen CATI-VLM (Görsel Belge Anlama) modelini duyurdu ve Robust Reading Competition (RRC) tarafından Haziran 2025'te açıklanan Belge Görsel Soru Cevaplama (DocVQA) kategorisinde dünyada ilk 12'ye, Vietnam'da ise ilk 1'e girerek birçok uluslararası rakibini geride bıraktı.
Güçlü Okuma Yarışması (RRC), bilgisayarlı görme alanında dünyada saygın bir araştırma tesisi olan Barselona Özerk Üniversitesi (UAB) İspanya'nın Bilgisayarlı Görme Merkezi (CVC) tarafından düzenlenen saygın bir bilimsel oyun alanıdır (https://rrc.cvc.uab.es/).
Yarışma 2011 yılında başlatılmış olup, bilgisayarlı görü alanında dünyanın önde gelen forumlarından biri olan Uluslararası Metin Analizi ve Tanıma Konferansı (ICDAR) kapsamında her yıl düzenlenmektedir. Yarışma, Tsinghua Üniversitesi, Hyundai Motor Group, Tencent gibi üniversitelerden, araştırma enstitülerinden ve büyük teknoloji şirketlerinden çok sayıda araştırmacı ve mühendisi bir araya getirmektedir. RRC'nin sorunları, çeviri, kurumsal veri yönetimi, kentsel analiz ve tarihi belge işleme gibi pratik sorunlarla yakından bağlantılı olan teknolojik ilerlemeyi teşvik etmek üzere tasarlanmıştır.
CMC ATI Direktörü Dr. Dang Minh Tuan şunları söyledi: "CMC ekibinin araştırma kapasitesinin RRC gibi prestijli bir küresel platform tarafından onaylanmasından büyük memnuniyet duyuyoruz. Araştırma ekibi, kısa sürede yüksek sıralamalara ulaşarak gelişmiş ülkelerdeki büyük isimlerle uluslararası rekabet gücünü kanıtladı. Daha da önemlisi, bu, Vietnam'daki Vietnam dili ve uzmanlık alanlarının belirli sorunlarını çözmek için teknolojiye hakim olma yeteneğinin açık bir göstergesidir."
Dr. Dang Minh Tuan, CMC ATI Direktörü.
CATI-VLM, yalnızca karakterleri ayıklaması değil, aynı zamanda birden fazla bilgi katmanını da anlamasıyla geleneksel OCR'den farklıdır: metin içeriği, metin dışı öğeler (onay kutuları, onay kutuları, grafikler, imzalar, formüller), düzen (sayfa yapısı, tablolar, formlar) ve stil (yazı tipleri, vurgular vb.). Model, ChatGPT'ye benzer şekilde, belge görüntüleri üzerinde sorulan görsel soruları, önceden belirli formları öğrenmeden yanıtlayabilir.
RRC sıralamasında dikkat çeken nokta, sadece 3 milyar parametresi olan CATI-VLM'nin 4/7 veri setinde en yüksek doğruluğa ulaşarak Deepseek (27 milyar parametre), GPT-4 Vision Turbo + Amazon Textract OCR (ilk 34) veya Baidu (ilk 22) gibi birçok Büyük Teknoloji modelini geride bırakması oldu.
Başarı aynı zamanda parametre ölçeğini kovalamak yerine çekirdek teknolojiye hakim olmaya ve modeli Vietnam'ın altyapı koşullarına uyacak şekilde optimize etmeye odaklanan pratik bir yaklaşımı da gösteriyor.
Örnek Üniversite Kabul Başvuru Formu
Yukarıdaki görseldeki el yazısından metin anlaşılmaktadır.
CMC Teknoloji Grubu Yönetim Kurulu Başkanı ve İcra Kurulu Başkanı Sayın Nguyen Trung Chinh şunları vurguladı: "Bu, teknoloji araştırma ve geliştirme (Ar-Ge) alanında on yılı aşkın süredir devam eden istikrarlı yatırımların sonucudur. CMC'nin uluslararası teknoloji arenasındaki üstün başarıları, Yapay Zeka Dönüşümü odaklı ve küresel pazara girişle birlikte Vietnam teknolojisinde uzmanlaşma stratejisini doğrulamaktadır. Vietnam istihbaratının küresel Büyük Teknoloji şirketleriyle omuz omuza durabileceğine ve dünya teknoloji haritasında değerli bir konum elde edebileceğine inanıyoruz."
C.OpenAI ekosisteminin ürün zincirinde CATI-VLM uygulaması yer alacak: Hukuki belgelerin incelenmesinde kullanılan sanal asistan CLS, dijital belge dönüştürme platformu CMC SmartDoc, bilgi yönetim sistemi CMC KMS, akıllı ofisler için otomatik raporlama sistemi ve yeni nesil Agentic Documents uygulamaları.
QUANG HUY
Kaynak: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Yorum (0)