ベトナム法学修士課程の推論と相互作用の評価基準を発表

2023年に初めて導入されたVMLU（ベトナム語マルチタスク言語理解）は、「Make in Vietnam」の先駆的な標準セットとなり、多くの国内研究グループがベトナム語大規模言語モデル（LLM）の品質向上に取り組むきっかけとなっています。

統計によると、2024年にVMLUは45のLLMをランキングに掲載し、155以上の組織および個人から評価依頼を受け、評価基準セットのダウンロード数は691件、プラットフォームからは3,729件のLLM評価がまとめられました。この基準セットは、VinBigData、VNPT AI、 Viettel Solutions、ホーチミン市科学技術大学（VNU-HCM）、オレゴン大学（米国）のUONLP x Ontocord、アリババグループのDAMOアカデミー、サムスンのSDSRVチームなど、国内外の多くの組織で使用されています。

Zalo AI と JAIST 研究所が VMLU の新しいバージョンを導入します。

AIモデルの知能化が進むにつれ、VMLUはより複雑な能力を評価できるようアップグレードされました。具体的には、拡張された基準セットは、現代の法学修士（LLM）に求められる以下の3つのコアスキルを評価します。

読解力（ViSQuAD）： 3,310 問で、ベトナム語の特定の特徴と文脈に基づいて、テキストを深く理解し、複雑な質問に対処する能力を評価します。

推論 (ViDrop): 3,090 問で、比較、計数、算術計算などのタスクを通じて LLM の論理的推論能力が試されます。

インタラクション (ViDialog): 210 のダイアログで、ダイアログにおける一貫性、文脈理解、多分野にわたる知識 (歴史、地理、論理) の応用を評価します。

新たな基準のハイライトは、多肢選択式、自由回答形式の質問から段階的な推論要件まで、多様な形式を組み合わせた高度な評価方法です。特に、VMLUは「LLMを審査員として」という手法（LLMを用いてLLMを評価する）を採用しています。これは、より客観的で大規模な結果を得るために、世界のAIコミュニティが採用しているトレンドです。

2023年版は、58のトピックを網羅し、複数のレベルに分かれた10,880問の多肢選択式問題で構成され、LLMの基礎知識の評価に重点を置いていました。一方、新しい基準セットはさらに一歩進み、実生活におけるLLMの推論能力とインタラクション能力を測定します。このアップグレードは、開発者がモデルをより包括的に評価するのに役立つだけでなく、LLMがエンドユーザーにとって有用な価値を生み出すことを促進することにもつながります。

拡張された基準セットにより、現代の LLM の 3 つのコアスキルが評価されます。

「現在、大規模言語モデルの能力を評価するためのベンチマークは世界中に数百種類存在します。しかし、ベトナム語に特化したベンチマークの数は非常に限られています。2023年と2025年にベンチマークを開始することで、評価の側面を多様化したいと考えています」と、Zalo AIの人工知能研究開発ディレクターであるチャウ・タン・ドゥック博士は述べています。

個人や研究グループがモデルを評価できるように、新しい標準セットが VMLU ウェブサイト https://vmlu.ai/ で公開されました。