베트남의 디지털 혁신과 인공지능(AI) 전환이라는 맥락에서 OCR(광학 문자 인식) 기술은 문서 디지털화, 비즈니스 프로세스 자동화, 비용 절감 및 관리 효율성 향상에 점점 더 중요한 역할을 하고 있습니다. 그러나 베트남어의 악센트와 필체 특성을 고려할 때, 인식 문제는 단순히 '단어 읽기'에 그치지 않고 맥락을 포괄적으로 이해하는 능력을 요구합니다.
최근CMC Technology Application Institute(CMC ATI)는 연구팀이 5TB 대용량 데이터웨어하우스에서 개발한 CATI-VLM(Visual Document Understanding) 모델을 발표했는데, 이 모델이 2025년 6월 Robust Reading Competition(RRC)에서 발표한 문서 시각적 질의응답(DocVQA) 부문 순위에서 전 세계 12위, 베트남 1위를 차지했습니다.
로버스트 리딩 경진대회(RRC)는 컴퓨터 비전 분야에서 세계적인 권위를 자랑하는 스페인 바르셀로나 자치대학교(UAB) 산하 컴퓨터 비전 센터(CVC)가 주최하는 권위 있는 과학 경진대회입니다(https://rrc.cvc.uab.es/). 2011년에 시작된 이 대회는 세계 최대 규모의 문서 분석 및 컴퓨터 비전 포럼 중 하나인 국제 텍스트 분석 및 인식 컨퍼런스(ICDAR)와 함께 개최되어 왔으며, 칭화대학교, 현대자동차그룹, 텐센트 등 명문 대학, 연구소, 그리고 기술 기업의 연구원, 엔지니어들이 참여하는 중요한 행사로 자리 잡았습니다. RRC의 과제는 번역, 기업 데이터 관리, 도시 분석, 역사 문서 처리 등 실질적인 문제와 밀접하게 연관된 기술 발전을 촉진하도록 설계되었습니다.
CMC ATI 소장인 당 민 투안 박사는 "CMC 팀의 연구 역량은 RRC와 같은 명망 있는 글로벌 플랫폼을 통해 입증되었습니다. 짧은 시간 안에 선진국의 유명 연구자들과 어깨를 나란히 할 수 있는 높은 순위를 달성하게 되어 자랑스럽습니다. 더 중요한 것은, 이는 베트남의 특정 문제 및 베트남의 전문 분야를 해결할 수 있는 기술을 완벽하게 숙달한 역량을 분명히 보여주는 사례입니다."라고 말했습니다.
CATI-VLM은 문자 추출뿐만 아니라 텍스트 콘텐츠, 비텍스트 요소(체크박스, 체크박스, 차트, 서명, 수식), 레이아웃(페이지 구조, 표, 양식), 스타일(글꼴, 강조 표시 등) 등 다양한 정보를 이해한다는 점에서 기존 OCR과 다릅니다. 이 모델은 ChatGPT와 유사하게 특정 양식을 미리 학습하지 않고도 문서 이미지에 제시된 시각적 질문에 답변할 수 있습니다.
출처: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
댓글 (0)