기계 번역은 자연어 처리 분야에서 인공지능 기술을 가장 성공적으로 활용한 사례 중 하나입니다. Google Translate나 Microsoft Bing Translator와 같은 고품질 기계 번역 시스템은 모델을 학습시키기 위해 최대 수백만 개의 문장 쌍으로 구성된 대규모 이중 언어 데이터셋을 필요로 합니다.

하지만 세계 의 많은 언어는 충분한 자원을 확보하지 못하고 있습니다. 따라서 동남아시아 지역을 포함하여 자원이 부족한 언어에 대한 효과적인 기계 번역 모델을 구축하는 것은 매우 시급하고 어려운 과제입니다.

최근 베트남 과학기술원(Vietnam Academy of Science and Technology) 정보기술연구소는 현존하는 가장 진보된 기계 번역 기술을 연구하고 습득했습니다. 이 부서는 베트남어와 라오어, 크메르어, 태국어, 말레이시아어, 인도네시아어 등 지역 언어 간의 다국어 텍스트 번역 시스템을 성공적으로 구축했습니다.

개발자에 따르면, 라오어, 태국어, 크메르어와 같은 언어는 기계 번역 모델을 구축할 때 큰 어려움을 야기합니다. 이러한 어려움은 이중 언어 데이터의 부족뿐만 아니라, 이러한 언어들이 형태론적으로 풍부하고 단어 분할, 문장 분할, 그리고 다의성이 부족하기 때문입니다.

정보기술연구소에서 개발한 AI 모델은 위 언어들의 모든 특수 기능에 "적응"하는 방법을 "학습"했습니다. 이를 통해 소프트웨어는 필요에 따라 다른 언어를 신속하게 추가할 수 있으며, 고급 외국어 번역 제품과 동등한 수준의 번역 품질을 제공합니다.

특별한 점은 이 다국어 번역 소프트웨어가 별도로 실행되고, 데이터를 로컬에 저장하며, 다른 서비스 제공업체의 API를 사용하지 않는다는 것입니다. 이를 통해 보안과 안전성을 보장하고 정보 유출을 방지할 수 있습니다.

W-vien-han-lam-삽화-ai-tri-tue-nhan-tao-1.jpg
베트남 과학기술원의 일부 과학기술 제품이 2023년 베트남 국제 혁신 전시회에 전시되었습니다. 사진: Trong Dat

Google Translate나 Bing Translator와 같은 번역 시스템의 한 가지 문제점은 특정 분야에만 국한된다는 것입니다. 즉, 대중에게 서비스를 제공하는 일반적이고 인기 있는 언어 분야에서는 번역 품질이 뛰어나지만, 의학 , 법률, 보안 등과 같은 특수 언어 분야에서는 번역 품질이 떨어집니다.

이러한 단점을 극복하고자 정보기술연구소 연구팀은 베트남어 중심 번역 시스템을 개발했습니다. 이 시스템은 자원이 부족한 언어로도 좋은 품질로 양방향 번역이 가능합니다.

특히, 이 소프트웨어는 동일한 텍스트에 대해 Google Translate와 동일하거나 더 높은 품질을 제공합니다. 또한, 이 소프트웨어는 텍스트 길이에 제한을 두지 않습니다.

2022~2023년 동안 시스템은 대규모 언어 모델(LLM) 기술을 배포하는 데 중점을 두고 다음 언어 쌍을 우선시합니다. 베트남어-크메르어, 베트남어-라오어, 베트남어-태국어, 베트남어-말레이어, 베트남어-인도네시아어.

영어(매우 풍부한 데이터 리소스이자 구글의 주요 강점)를 사용하는 정보기술연구소 소프트웨어는 구글 번역과 거의 동등한 품질을 보장합니다. 특히, 이 시스템은 파트너의 특정 요구 사항에 따라 의학, 법률 등 전문 언어 분야에 맞춰 미세 조정이 가능합니다.

이 시스템은 베트남에서 가장 강력한 인공지능/머신러닝(AI/ML) 슈퍼컴퓨팅 용량과 대용량 언어 데이터 저장을 지원하는 기술 인프라를 기반으로 연구팀이 자체 개발한 것입니다.

정보기술연구소는 관련 기술을 완벽하게 숙지하고 있습니다. 따라서 본 부서는 필요에 따라 베트남 소수 민족어(데이터 자원이 부족한 경우가 많음)인 므엉어, 태국어 등 새로운 대상 언어와 중국어, 프랑스어, 러시아어 등 인기 외국어까지 쉽게 확장할 수 있습니다.

베트남에서 제작된 이 다국어 번역 소프트웨어는 소수 민족의 정보 접근 문제를 해결하는 데 도움이 될 것으로 기대됩니다.

베트남의 인공지능 시장 규모는 1억 달러에 달합니다 . 베트남에서 AI 기술은 현재 고객 관리 서비스, 특히 은행 업무에 주로 적용되고 있으며, 곧 보험 분야에도 적용될 예정입니다.