Vietnam.vn - Nền tảng quảng bá Việt Nam

베트남어 LLM 추론 및 상호작용 평가 기준 발표

Zalo AI와 일본과학기술고등연구소(JAIST)는 VMLU의 새로운 버전을 출시하여 베트남 AI 커뮤니티가 고수준 LLM 모델을 완성하도록 장려합니다.

ZNewsZNews01/10/2025

2023년에 처음 도입된 VMLU(베트남어 멀티태스크 언어 이해)는 선구적인 "Make in Vietnam" 표준 세트가 되었으며, 많은 국내 연구 그룹이 베트남어 대규모 언어 모델(LLM)의 품질을 개선하도록 동기를 부여했습니다.

통계에 따르면, 2024년 VMLU는 순위에 45개의 LLM을 발표했으며, 155개 이상의 기관 및 개인으로부터 평가 요청을 받았습니다. 또한, 평가 기준 세트는 691회 다운로드되었고, 플랫폼에서 3,729건의 LLM 평가가 이루어졌습니다. 이 기준 세트는 VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon(USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung 등 국내외 여러 기관에서 활용되고 있습니다.

VMLU anh 1

Zalo AI와 JAIST 연구소가 VMLU의 새로운 버전을 소개합니다.

AI 모델이 점점 더 지능화됨에 따라 VMLU는 더욱 복잡한 역량을 평가하도록 업그레이드되었습니다. 특히, 확장된 기준 세트는 현대 LLM의 세 가지 핵심 기술을 평가하며, 여기에는 다음이 포함됩니다.

독해 능력(ViSQuAD): 3,310개의 문제로 구성된 이 시험은 베트남어의 특정 특성과 맥락에 기반한 복잡한 문제를 다루고 텍스트를 심층적으로 이해하는 능력을 평가합니다.

추론(ViDrop): 3,090개의 문제는 비교, 계산, 산술 계산 등의 과제를 통해 LLM의 논리적 추론 능력을 시험합니다.

상호작용(ViDialog): 210개의 대화를 통해 대화에서의 일관성, 맥락적 이해, 그리고 다학제적 지식(역사, 지리, 논리)의 적용을 평가합니다.

새로운 표준 세트의 핵심은 객관식, 주관식 문제부터 단계별 추론 요구 사항까지 다양한 형식을 결합한 고급 평가 방식입니다. 특히 VMLU는 "LLM as a judge" 방식(LLM을 활용하여 LLM을 평가하는 방식)을 적용하는데, 이는 전 세계 AI 커뮤니티에서 더욱 객관적이고 대규모 결과를 얻기 위해 적용되고 있는 추세입니다.

2023년 버전은 58개 주제를 다루는 10,880개의 객관식 문제를 여러 단계로 나누어 LLM의 기초 지식을 평가하는 데 중점을 두었습니다. 한편, 새로운 표준 세트는 한 걸음 더 나아가 실제 상황에서 LLM의 추론 및 상호 작용 능력을 측정합니다 . 이 업그레이드는 개발자가 모델을 더욱 포괄적으로 평가할 수 있도록 지원할 뿐만 아니라 LLM이 최종 사용자에게 유용한 가치를 창출하도록 촉진합니다.

VMLU anh 2

확장된 기준 세트는 현대 LLM의 세 가지 핵심 기술을 평가합니다.

"현재 전 세계적으로 대규모 언어 모델의 성능을 평가하는 벤치마크는 수백 가지에 달합니다. 하지만 베트남어 전용 벤치마크는 매우 제한적입니다. 2023년과 2025년에 벤치마크를 출시함으로써 평가 측면을 더욱 다각화하고자 합니다."라고 Zalo AI의 인공지능 연구개발 책임자인 차우 탄 득 박사는 말했습니다.

새로운 표준 세트는 개인과 연구 그룹이 모델을 평가할 수 있도록 VMLU 웹사이트(https://vmlu.ai/)에 출시되었습니다.

VMLU anh 3

새로운 표준 세트가 VMLU 웹사이트에 출시되었습니다.

VMLU는 Zalo AI와 JAIST 연구소의 주요 전문가들과 협력하여 분야와 난이도 측면에서 더욱 다양한 평가 기준을 연구하고 개발해 나갈 것입니다. VMLU는 향후 LLM 모델이 책임감 있게 개발될 수 있도록 안전성 및 무결성 평가 기준 개발에도 힘쓸 것입니다.

출처: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html


댓글 (0)

No data
No data

유산

;

수치

;

사업

;

No videos available

현재 이벤트

;

정치 체제

;

현지의

;

제품

;