Vietnam.vn - Nền tảng quảng bá Việt Nam

젊은 엔지니어, AI를 활용해 베트남어 입력 방식 바꾼다

AI가 통합된 베트남어 타자 소프트웨어는 창의성과 전문적 지식을 성공적으로 결합하여 지역 사회에 실질적인 가치를 제공하는 것을 목표로 하는 제품 중 하나입니다.

Zing NewsZing News12/05/2025

v7 인터페이스, AI 통합 키보드. 사진: NVCC .

Tri Thuc - Znews 와의 인터뷰에서 Tri Duc(2003년생)은 베트남어 입력 방식을 바꾸기 위해 인공지능을 적용한다는 아이디어에 대해 이야기했습니다. 이 학생의 프로젝트인 v7은 현재 연구 논문으로 발전하여 AI 분야의 권위 있는 학회인 IJCAI 2025에 채택되었습니다.

수십 년 동안 널리 사용되었음에도 불구하고 텔렉스나 VNI 타이핑은 여전히 ​​사용자 경험 측면에서 많은 한계를 가지고 있습니다. 이를 바탕으로 v7은 가벼운 예측 도구로 탄생했으며, AI 통합을 통해 베트남어 입력 시간을 단축하는 데 도움이 되었습니다.

언어와 기술에 대한 열정

그는 언어와 기술에 대한 사랑으로 호치민시 기술대학교에서 응용 인공지능을 전공하게 되었습니다.

학업 중에 베트남어를 위한 대규모 언어 모델(LLM), 소수 민족 언어를 번역하는 소프트웨어, 입학 지원을 위한 챗봇 등의 프로젝트를 진행하게 됩니다. 그는 "이러한 경험 덕분에 탄탄한 지식 기반을 쌓고, AI를 적용해 커뮤니티에 유용한 제품을 만들고자 하는 열정과 열망을 키울 수 있었습니다."라고 말했습니다.

Bo go tich hop AI anh 1

Tri Duc은 AI를 삶에 적용하여 가치를 창출하고자 합니다. 사진: NVCC

또한, 만다린어와 광둥어에 대한 배경 지식을 바탕으로 Duc은 병음/jyutping과 베트남어 철자의 상관관계를 인식했습니다. 이 요소는 상형문자의 복잡성과 대조적으로 중국어 병음 입력 시스템에서는 국가 이름을 한자로 입력할 때 "yn"만 입력하면 된다는 것을 보여줍니다. 텔렉스나 VNI의 경우 "베트남"이라는 단어를 입력하려면 10개의 키가 필요합니다.

Duc은 관찰을 통해 의사소통이 빠를 때 사람들이 종종 첫 자음을 그대로 써서 줄여 쓴다는 것을 깨달았습니다. 예를 들어 "student"의 경우 "hs"를 씁니다. 그는 이 아이디어가 나오게 된 상황에 대해 "인간이 이런 종류의 글을 쉽게 이해할 수 있다면, AI도 올바른 데이터로 훈련시키면 절대적으로 이해할 수 있다"고 말했다.

텔렉스나 VNI와 같은 기존 타이핑 도구를 사용할 때 보조 메커니즘을 사용하여 전체 문자를 입력한 다음 악센트를 추가하는 대신, v7은 AI를 사용하여 쓰고 싶은 단어를 제안합니다. 이 기술은 가능한 한 적은 키로 완전한 단어를 정확하게 예측합니다.

베트남어 철자 구조에서 단어는 초성, 운율, 성조로 구성됩니다. 예를 들어, "Nguyen"이라는 단어는 "ng", "uyen" 그리고 하강음으로 이루어져 있습니다. 이러한 원리를 바탕으로 v7은 자음과 성조만으로 전체 단어를 예측하도록 제작되었으며, 정확성을 유지하는 동시에 키 입력 횟수를 크게 줄였습니다.

AI에게 베트남어를 가르치는 과제

Duc에 따르면, 가장 큰 어려움은 AI가 이 타이핑 도구에 베트남어를 "이해"하도록 가르치는 것입니다. 그는 GPT-2를 기반으로 선택하기 전에 여러 모델을 시도했으며, 좋은 문맥 이해와 정확한 단어 예측을 위해 트랜스포머 아키텍처를 도입했습니다.

Duc은 기본 아키텍처를 선택한 후, 토큰화기(어휘 인코더)를 자신이 직접 만든 베트남어 어휘로 완전히 교체했습니다. 엔지니어는 포괄적인 처리를 보장하기 위해 유효하고 정확하게 철자가 쓰인 베트남어 단어를 모두 걸러내고 사용자가 쓰고 싶어하는 단어를 예측했습니다.

또 다른 과제는 예측 성능과 대응 속도의 균형을 맞추는 것입니다. 모델이 컴퓨터와 휴대폰에서 모두 실시간으로 실행될 수 있으면서도 최상의 예측을 내릴 수 있을 만큼 강력한지 확인해야 합니다. 2개월간의 지속적인 테스트 끝에 현재 버전에서는 사용자가 입력하고자 하는 단어의 약 70%가 맨 위로 올라왔으며, 지연 시간은 단 0.03초에 불과했습니다.

키보드의 입력 방법과 관련하여, Duc이 언어학자 Cao Xuan Hao나 Henri Maspero의 많은 연구를 참고한 바에 따르면, 베트남어에는 6개의 성조가 아니라 8개의 성조가 있습니다. 이 기능을 활용하기 위해 v7은 일반적인 6음계(플랫 톤과 5가지 악센트 톤: 샤프, 플랫, 어킹, 폴링, 헤비) 대신 8음계 시스템을 사용합니다. 이 키보드에서 "v7"을 입력하면 모델은 "베트남어"라는 단어를 제안합니다. 이는 제품 이름에 대한 아이디어이기도 합니다.

Duc은 자신의 소셜 네트워크에 v7을 공유한 뒤, 이 모델이 관심과 지원을 받고 이를 경험하고자 하는 욕구를 받았을 때 매우 기쁘고 놀랐다고 말했습니다. 그는 "그로 인해 더 똑똑하고 빠른 베트남어 타자 도구가 필요하다는 것을 확실히 깨달았습니다."라고 말했습니다.

Bo go tich hop AI anh 2

과학 연구 논문의 저자 그룹. 왼쪽부터 Nhat Khang, Hieu Nghia, Tri Duc. 사진: NVCC

현재 키보드는 아직 프로토타입 단계에 있으며, 프로그래머나 기술 사용자가 테스트하고 기여할 수 있도록 GitHub에 오픈 소스 코드가 공개되어 있습니다. 일반 사용자가 쉽게 설치하고 사용할 수 있도록 Windows 및 macOS용 완전한 애플리케이션 버전도 개발 중입니다.

앞으로 v7의 최우선 과제는 iPhone용 키보드 버전으로, 스마트폰을 사용하여 베트남어 텍스트를 입력하는 방식을 개선하는 것입니다. 또한, 일상 대화 데이터에 대한 추가 학습을 통해 모델의 정확도가 향상되고, AI가 일반적인 상황을 더 잘 이해하는 데 도움이 됩니다.

독일의 여정은 창의적인 바람을 불어넣고, 베트남이 AI 인프라에 막대한 투자를 하는 상황에서 기술 동향을 따라잡는 데 기여했습니다. 그를 자랑스럽게 만든 순간 중 하나는 v7이 처음으로 완전한 문장을 만들어냈을 때였습니다. Duc은 "그때쯤이면 오늘날 ChatGPT의 1/10,000 크기 정도에 불과한 작은 모델도 사람처럼 생각할 수 있을 겁니다."라고 말했습니다.

출처: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html


댓글 (0)

No data
No data

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품