잘로(Zalo)의 여성 엔지니어가 세계 최고의 AI 컨퍼런스에 베트남 기술을 선보입니다.

잘로(Zalo)에서 6년간 근무하며 부이 티 쿠크(Bui Thi Cuc)는 인공지능에 대한 열정을 더욱 키워나갔습니다. 졸업 직후 데이터 과학 분야에서 경력을 시작한 쿠크는 현재 잘로에서 VMLU 개발팀의 수석 AI 엔지니어로 활동하며 2025년 여름 오스트리아 빈에서 열린 ACL(전산언어학회) 학회에서 연구 발표를 진행했습니다.

이 학회는 자연어 처리 분야에서 가장 권위 있는 학술 대회로, 매년 2,000명 이상의 연구자들이 참석합니다. 자연어 처리 분야의 많은 기초 연구들이 이 학회에서 발표된 후 업계 표준으로 자리 잡았습니다.

“컨퍼런스 첫날부터 그 규모와 자유로운 학술 교류에 압도당했습니다.”라고 쿠크는 회상했다. 아침부터 밤까지 연구 분위기가 끊이지 않았고, 수많은 포스터가 전시되고, 장시간의 기술 토론이 이어졌으며, Meta, Google, Apple 등의 연구실들이 참여했다.

베트남에서 오스트리아 빈까지

Bui Thi Cuc의 연구 논문인 "ACL VMLU 벤치마크: 베트남어 언어 모델(LLM)을 위한 종합 벤치마크 툴킷"은 대규모 베트남어 언어 모델에 대한 평가 도구 부족 문제를 해결하는 것을 목표로 합니다.

Zalo AI와 일본과학기술원(JAIST)이 2023년 11월에 출시한 VMLU는 베트남어 사용자를 대상으로 하는 대규모 언어 모델(LLM) 개발자들이 모델을 평가하고 적절한 학습 전략을 개발하는 데 도움이 되는 공통 표준 세트를 제공합니다.

부이 쿡은 VMLU 개발 과정에서 벤치마크 구축부터 데이터 품질 확보에 이르기까지 수많은 어려움에 직면했다고 밝혔습니다. 하지만 가장 스트레스가 많았던 단계는 연구 논문 제출 과정이었다고 합니다. ACL의 연구 논문 채택률은 약 25%에 불과하며, 전 세계의 수많은 대형 AI 연구 기관들과 경쟁해야 했기 때문입니다.

“예비 학술대회에서 연구 결과가 채택되었을 때, 팀원 모두 예상보다 훨씬 기뻐했습니다. 그 후 저는 심사위원단의 모든 피드백을 취합하고 직속 상사와 논의한 끝에 심사위원들을 설득하여 점수를 높여 본 학술대회에서 논문이 채택될 수 있도록 했습니다.”라고 쿠크는 회상했다.

잘로 형제 1

VMLU 개발팀을 대표하여 부이 티 쿡 씨가 ACL 컨퍼런스에서 연구 프로젝트를 발표했습니다.

이 벤치마크는 대규모 언어 모델의 베트남어 이해 능력을 평가하기 위해 설계된 최초의 도구입니다. 일반 지식, 독해력, 추론 능력, 대화 능력을 평가하기 위한 17,000개의 문항으로 구성된 4개의 데이터셋을 사용합니다.

잘로(Zalo) 엔지니어들에 따르면, 현재 대부분의 시험 문제는 영어를 기준으로 설계되어 있어 베트남어의 구문, 의미, 문화적 맥락을 온전히 반영하지 못합니다. 영어 문제를 베트남어로 직접 번역하면 종종 부정확한 결과가 나오거나 의미상의 뉘앙스가 손실됩니다.

LLM 평가 체계를 간단히 설명하자면, AI를 자신의 능력을 시험해 볼 시험이 필요한 학생이라고 상상해 보세요. 현재 대부분의 시험은 영어로 진행되지만, Zalo AI 팀은 AI가 베트남어를 제대로 이해하고 능숙하게 사용하는지 테스트하기 위해 베트남어로 된 시험을 만들고 싶어 했습니다.

잘로 AI의 과학 부문 책임자인 응우옌 쯔엉 손(Nguyen Truong Son) 씨는 “VMLU 평가 시스템은 대규모 베트남어 모델을 평가하는 공통적인 ‘측정 기준’을 제공합니다. 발표 이후 국내외 AI 연구 커뮤니티로부터 많은 긍정적인 반응을 얻었습니다. 앞으로 VMLU가 학계뿐 아니라 AI 제품을 개발하는 기업에서도 널리 사용되고 적용되는 평가 표준이 되기를 기대합니다.”라고 밝혔습니다.