AI 모델에는 복잡한 기능을 심층적으로 평가하는 표준 세트가 필요합니다.

VMLU(베트남어 LLM 학습, 평가 및 순위 플랫폼)의 2024년 개발 현황 보고서(LLM)에 따르면 베트남어 중심 LLM 학위의 수가 급격히 증가한 것으로 나타났습니다. 구체적으로, VMLU 플랫폼은 순위에 45개의 LLM 학위를 발표하고, 155개 이상의 기관 및 개인으로부터 평가 요청을 받았으며, 2024년 플랫폼에서 평가 기준 다운로드 691건과 LLM 평가 3,729건을 요약했습니다.

VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon(미국), DAMO Academy - Alibaba Group, SDSRV teams - Samsung 등 많은 국내외 기관에서 VMLU를 사용하고 있습니다.

VMLU 영어 1

VMLU는 2023년에 첫 번째 LLM 평가 기준을 출시할 예정입니다.

LLM 모델의 양적 증가와 함께 질적 향상 또한 꾸준히 이루어지고 있습니다. 과거에는 LLM이 기본 지식을 중심으로 학습되었지만, 이제 개발자들은 독해, 대화 교환, 인간과 유사한 추론 등 더 많은 기술을 확장하는 데 집중하고 있습니다.

점점 더 강력해지는 고급 베트남 LLM 모델의 개발에 대응하여 VMLU는 모델의 복잡한 기능을 더욱 평가하기 위한 새로운 표준 세트를 발표했습니다.

LLM 우수성을 촉진하는 표준

이전에는 시장에 품질 기준이 부족했기 때문에 많은 국내 연구 그룹들이 자체적인 기준을 적용하여 자체 평가 도구를 개발해야 했습니다. 이로 인해 적절한 교육 전략을 수립하기 위해 시중에 나와 있는 LLM 모델과 모델 품질을 비교하고 평가하는 데 제약이 있었습니다.

이 문제를 해결하기 위해 2023년 11월 VMLU는 베트남의 주요 전문가 팀에서 최초의 공통 "Make in Vietnam" 표준 세트를 연구하여 커뮤니티에 무료로 제공했습니다.

58개 주제를 아우르는 10,880개의 객관식 문제로 구성된 표준 문제집은 여러 레벨로 나뉘어 있어 개발자들이 일반 평가 데이터 세트에 쉽게 접근할 수 있도록 지원했습니다. VMLU의 순위를 활용하여 시중에 나와 있는 기존 LLM 모델과 직접 비교해 보세요.

VinBigData 가상 비서 기술 블록의 자연어 처리 부서 책임자인 Dang Tran Thai 박사는 ViGPT-1.6B-v1 모델이 VMLU의 처음부터 학습된 모델(LLM) 순위에 포함되었다고 밝혔습니다. 그는 "VMLU는 베트남어 LLM의 지식 역량을 평가할 수 있는 비교적 완전하고 포괄적인 데이터를 보유하고 있습니다. VMLU는 각 개발 단계에서 LLM의 품질을 평가하는 데 유용할 뿐만 아니라, 학습 과정에서 실험의 효과를 측정하는 데에도 유용합니다."라고 말했습니다.

Dang Tran Thai 박사는 "이것은 AI 전반과 특히 LLM의 개발을 촉진하는 '발판'이 될 것입니다. 왜냐하면 고품질 모델을 훈련할 수 있는 기반을 마련하기 위해서는 좋은 표준이 필요하기 때문입니다."라고 덧붙였습니다.

마이크로소프트 수석 엔지니어인 박 흥 응우옌 박사는 베트남어 LLM 모델의 성능을 평가하는 데 있어 VMLU가 유용하며, 이를 통해 개발 부서가 모델의 기능을 더 잘 이해하는 데 도움이 된다고 강조했습니다. 또한, 박 흥 응우옌 박사는 VMLU가 추론, 코드 생성, 텍스트 요약과 같은 유용한 기술을 추가로 제공할 것으로 기대합니다.

VMLU의 새로운 버전은 고차 LLM 모델을 완성하는 것을 목표로 합니다.

최근 VMLU는 LLM의 추론 및 상호작용 능력을 평가하는 새로운 기준을 지속적으로 발표하고 있습니다. 확장된 기준은 현대 LLM의 세 가지 핵심 기술을 평가하며, 여기에는 다음이 포함됩니다.

독해 능력(ViSQuAD) : 3,310개의 문제로 구성된 이 시험은 베트남어의 특정 특성과 맥락에 기반한 복잡한 문제를 처리하고 텍스트를 심층적으로 이해하는 능력을 평가합니다.

추론(ViDrop) : 3,090개의 문제는 비교, 계산, 산술 계산 등의 과제를 통해 LLM의 논리적 추론 능력을 시험합니다.

상호작용(ViDialog) : 210개의 대화를 통해 일관성, 맥락을 이해하는 능력, 대화에서 다학문적 지식(역사, 지리, 논리)을 적용하는 능력을 평가합니다.

이 업그레이드는 개발자가 모델을 보다 포괄적으로 평가하는 데 도움이 될 뿐만 아니라 LLM이 최종 사용자에게 유용한 가치를 창출하도록 촉진합니다.

VMLU 형제 2

새로운 VMLU 표준은 2025년에 발표될 예정입니다.

VMLU 개발 기관인 Zalo AI의 인공지능 연구개발 책임자인 차우 탄 득 박사는 "현재 전 세계적으로 대규모 언어 모델의 성능을 평가하는 표준은 수백 가지에 달합니다. 하지만 베트남어 전용 평가 표준은 매우 제한적입니다. 2023년과 2025년에 표준을 발표함으로써 평가 측면을 더욱 다각화하고자 합니다."라고 말했습니다.

새로운 표준 세트는 개인과 연구 그룹이 모델을 평가할 수 있도록 VMLU 웹사이트(https://vmlu.ai/)에 출시되었습니다.

VMLU 형제 3

새로운 표준 세트가 VMLU 웹사이트에 업데이트되었습니다.

VMLU는 Zalo AI가 일본 과학 기술원(JAIST)과 협력하여 구축한 베트남 LLM 모델을 평가하고 순위를 매기는 플랫폼으로, 2023년 11월부터 커뮤니티에 무료로 제공됩니다. VMLU는 베트남 AI 커뮤니티와 함께하기 위한 노력의 일환으로 베트남 국민의 신기술 습득 능력 향상에 기여하고 있습니다. 이를 통해 과학, 기술, 혁신, 그리고 국가 디지털 변혁에 대한 획기적인 방향을 제시하여 베트남의 기술 발전 시대에 기여하고 있습니다.

출처: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html