Vietnam'da yapay zeka dönüşümü güçlü bir şekilde gerçekleşiyor ve OCR (optik karakter tanıma) teknolojisi, belge dijitalleştirmede giderek daha önemli bir rol oynuyor. Fotoğraf: İllüstrasyon
CMC Teknoloji Uygulama Enstitüsü (CMC ATI), araştırma ekibinin 5TB büyük veri ambarından geliştirdiği CATI-VLM (Görsel Belge Anlama) modelinin, Robust Reading Competition (RRC) tarafından Haziran 2025'te açıklanan sıralamalarda Belge Görsel Soru Cevaplama (DocVQA) kategorisinde dünyada ilk 12'ye, Vietnam'da ise ilk 1'e gireceğini duyurdu.
CMC ATI Direktörü Bay Dang Minh Tuan şunları söyledi: "CMC ekibinin araştırma kapasitesinin RRC gibi prestijli bir küresel oyun alanı tarafından onaylanmasından büyük memnuniyet duyuyoruz. Ekibin kısa sürede gelişmiş ülkelerdeki büyük isimlerle omuz omuza yüksek bir sıralamaya ulaşabilmesinden gurur duyuyoruz. Daha da önemlisi, bu, Vietnam'ın ve Vietnam'daki özel alanların belirli sorunlarını çözmek için teknolojiye hakim olma yeteneğinin açık bir göstergesidir."
Vietnam'da dijital dönüşüm ve yapay zeka dönüşümünün güçlü bir şekilde yaşandığı bir ortamda, OCR (Optik Karakter Tanıma) teknolojisi, belgelerin dijitalleştirilmesinde, iş süreçlerinin otomatikleştirilmesinde, maliyetlerin düşürülmesinde ve yönetim verimliliğinin artırılmasında giderek daha önemli bir rol oynamaktadır.
Ancak aksanlı ve el yazısı olan Vietnamlıların özellikleri nedeniyle tanıma sorunu sadece 'kelimeleri okumakla' sınırlı kalmıyor, modelin bağlamı kapsamlı bir şekilde anlayabilme yeteneğine sahip olması gerekiyor.
CATI-VLM, geleneksel OCR'den yalnızca karakterleri çıkarması değil, aynı zamanda birden fazla bilgi katmanını da anlaması bakımından farklıdır: metin içeriği, metin dışı öğeler (onay kutuları, onay kutuları, grafikler, imzalar, formüller), düzen (sayfa yapısı, tablolar, formlar) ve stil (yazı tipleri, vurgular…).
Model, ChatGPT'ye benzer şekilde, önceden belirli formları öğrenmeye gerek kalmadan, belge görüntüleri üzerinde sorulan görsel soruları yanıtlayabiliyor.
Güçlü Okuma Yarışması (RRC), bilgisayarlı görme alanında dünyada saygın bir araştırma kuruluşu olan Barselona Özerk Üniversitesi (UAB) İspanya'nın Bilgisayarlı Görme Merkezi tarafından düzenlenen saygın bir bilimsel oyun alanıdır.
2011 yılında başlatılan ve belge analizi ve bilgisayarlı görme alanında dünyanın en büyük forumlarından biri olan Uluslararası Metin Analizi ve Tanıma Konferansı ICDAR'a eşlik eden yarışma, Tsinghua Üniversitesi, Hyundai Motor Group ve Tencent gibi saygın üniversitelerden, araştırma enstitülerinden ve teknoloji şirketlerinden araştırmacıları, mühendisleri çeken önemli bir etkinlik haline geldi.
RRC'nin misyonları, çeviriden kurumsal veri yönetimine, kentsel analizlerden tarihsel belge işlemeye kadar uzanan gerçek dünya sorunlarına bağlı olarak teknolojik ilerlemeyi yönlendirmek üzere tasarlanmıştır.
İşten ebeveynliğe: Teknoloji CEO'ları yapay zekayı her gün nasıl kullanıyor? Jensen Huang'dan Tim Cook'a, dünyanın en güçlü teknoloji CEO'ları yapay zekayı günlük yaşamlarında kullanıyor.
Kaynak: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Yorum (0)