기계 번역은 자연어 처리 분야에서 인공지능 기술을 가장 성공적으로 적용한 분야 중 하나입니다. Google Translate나 Microsoft의 Bing Translator와 같은 고품질 기계 번역 시스템은 모델을 학습시키기 위해 최대 수백만 개의 문장 쌍으로 구성된 대규모 이중 언어 데이터 세트가 필요합니다.
하지만 세계 의 많은 언어들은 충분한 자원이 부족합니다. 따라서 동남아시아 지역을 포함하여 자원이 부족한 언어에 대한 효과적인 기계 번역 모델을 구축하는 것은 시급하고 어려운 일입니다.
최근, 정보기술연구소(베트남 과학 기술 아카데미)는 현존하는 가장 진보된 기계번역 기술을 연구하고 습득했습니다. 이 부서는 또한 베트남어와 라오어, 크메르어, 태국어, 말레이시아어, 인도네시아어 등 지역 언어 간의 다국어 텍스트 번역 시스템을 성공적으로 구축했습니다.
개발자에 따르면, 라오어, 태국어, 크메르어와 같은 언어는 기계 번역 모델을 구축할 때 엄청난 어려움을 겪습니다. 이러한 어려움은 이중 언어 데이터가 부족할 뿐만 아니라 이러한 언어가 형태학적으로 풍부하고 단어 분할, 문장 분할 및 다의성이 부족하기 때문에 발생합니다.
정보기술원에서 개발한 AI 모델은 위 언어들의 모든 특수 기능에 '적응'하는 법을 '학습'했습니다. 이를 통해 이 소프트웨어는 필요할 때 다른 언어를 빠르게 추가할 수 있으며, 고급 외국어 제품과 동등한 번역 품질을 제공합니다.
특별한 점은 이 다국어 번역 소프트웨어가 별도로 실행되고, 데이터를 로컬에 저장하며, 다른 서비스 제공업체의 API를 사용할 필요가 없다는 것입니다. 이를 통해 보안, 안전 및 정보 유출 방지가 보장됩니다.
Google Translate나 Bing Translator와 같은 번역 시스템의 한 가지 문제점은 도메인별 적응력 부족입니다. 즉, 대중에게 서비스되는 일반적이고 인기 있는 언어 도메인은 잘 번역할 수 있지만, 의학 , 법률, 보안 등과 같은 특수 언어 도메인의 번역 품질은 좋지 않습니다.
이러한 단점을 극복하고자 정보기술원 연구팀은 베트남어 중심의 번역 시스템을 개발하여 자원이 부족한 언어도 고품질로 양방향 번역이 가능하도록 했습니다.
구체적으로, 이 소프트웨어는 동일한 텍스트에 대해 Google Translate와 동일하거나 더 높은 품질을 제공합니다. 게다가 이 소프트웨어는 텍스트의 길이에 제한을 두지 않습니다.
2022~2023년 동안 시스템은 대규모 언어 모델(LLM) 기술을 배포하는 데 중점을 두고 다음 언어 쌍을 우선시합니다. 베트남어-크메르어, 베트남어-라오어, 베트남어-태국어, 베트남어-말레이어, 베트남어-인도네시아어.
영어(매우 풍부한 데이터 리소스이자 Google의 우선적 강점)를 사용하는 정보기술연구소의 소프트웨어는 Google 번역과 거의 동일한 품질을 보장합니다. 특히, 이 시스템은 파트너의 특정 요구 사항에 따라 의학, 법률 등 전문 언어 영역에 맞게 미세하게 조정할 수 있는 기능을 갖추고 있습니다.
이 시스템은 베트남에서 가장 강력한 인공지능/머신러닝(AI/ML) 슈퍼컴퓨팅 용량과 대용량 언어 데이터 저장을 지원하는 기술 인프라를 기반으로 연구팀이 자체 개발한 것입니다.
정보기술연구소는 관련 기술을 완벽하게 습득하고 있습니다. 따라서 이 단원은 필요에 따라 베트남의 소수 민족 언어(종종 데이터 자원이 매우 부족함)인 므엉어, 태국어 등과 중국어, 프랑스어, 러시아어 등과 같은 인기 있는 외국어를 포함한 새로운 대상 언어로 쉽게 적용 범위를 확장할 수 있습니다.
베트남에서 제작된 이 다국어 번역 소프트웨어는 소수 민족의 정보 접근 문제를 해결하는 데 도움이 될 것으로 기대됩니다.
[광고_2]
원천
댓글 (0)