베트남에서 디지털 혁신과 인공지능 응용 프로그램 혁신이 활발하게 진행됨에 따라, OCR 기술(광학 문자 인식)은 문서 디지털화, 비즈니스 프로세스 자동화, 비용 절감 및 경영 효율성 향상에 있어 점점 더 중요한 역할을 하고 있습니다.
하지만 악센트와 필기체가 있는 베트남어의 특성을 고려할 때, 인식 문제는 '단어 읽기'에 그치지 않고 모델이 맥락을 종합적으로 이해할 수 있는 능력을 요구합니다.
이러한 과제에 직면하여CMC 기술 응용 연구소(CMC ATI)는 컴퓨터 비전(Visual Document Understanding)을 사용하여 문서를 이해하는 시스템인 CATI-VLM 모델을 개발했습니다.
최대 5TB의 대용량 데이터웨어하우스를 기반으로 하는 이 모델은 2025년 6월에 개최되는 국제 Robust Reading Competition(RRC)의 문서 시각적 질문 답변(DocVQA) 부문에서 세계 12위, 베트남 1위를 차지했습니다.
(베트남 통신/Vietnam+)
출처: https://www.vietnamplus.vn/tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post1048696.vnp
댓글 (0)