Annonce des critères d'évaluation du raisonnement et de l'interaction du LLM vietnamien

Lancé pour la première fois en 2023, le VMLU (Vietnamese Multitask Language Understanding) est devenu un ensemble de normes pionnier « Made in Vietnam », motivant de nombreux groupes de recherche nationaux à améliorer la qualité des grands modèles de langage vietnamien (LLM).

Selon les statistiques, en 2024, la VMLU a classé 45 LLM, a reçu des demandes d'évaluation de plus de 155 organisations et particuliers, a compilé 691 téléchargements des critères d'évaluation et 3 729 évaluations de LLM depuis la plateforme. Ces normes sont utilisées par de nombreuses organisations nationales et internationales, telles que VinBigData, VNPT AI, Viettel Solutions, l'Université des Sciences et Technologies (VNU-HCM), UONLP x Ontocord (Université de l'Oregon, États-Unis), DAMO Academy (Alibaba Group), SDSRV teams (Samsung).

Zalo AI et JAIST Institute présentent une nouvelle version de VMLU.

Face à l'intelligence croissante des modèles d'IA, la VMLU a été modernisée pour évaluer des compétences plus complexes. Plus précisément, le référentiel élargi évalue trois compétences clés d'un LLM moderne, notamment :

Compréhension de lecture (ViSQuAD) : 3 310 questions évaluent la capacité à comprendre un texte en profondeur et à gérer des questions complexes en fonction des caractéristiques spécifiques de la langue et du contexte vietnamiens.

Raisonnement (ViDrop) : 3 090 questions mettent au défi les capacités de raisonnement logique du LLM à travers des tâches telles que la comparaison, le comptage et les calculs arithmétiques.

Interaction (ViDialog) : 210 dialogues évaluent la cohérence, la compréhension contextuelle et l'application des connaissances multidisciplinaires (histoire, géographie, logique) dans le dialogue.

Le point fort de ce nouveau référentiel réside dans sa méthode d'évaluation avancée, combinant diverses formes, allant des questions à choix multiples et ouvertes aux exigences de raisonnement étape par étape. La VMLU applique notamment la méthode « LLM as a judge » (utilisation du LLM pour évaluer les LLM), une tendance adoptée par la communauté mondiale de l'IA pour obtenir des résultats plus objectifs et à grande échelle.

Avec 10 880 questions à choix multiples couvrant 58 sujets et réparties en plusieurs niveaux, la version 2023 se concentrait sur l'évaluation des connaissances fondamentales du LLM. Le nouveau référentiel va plus loin en mesurant les capacités de raisonnement et d'interaction du LLM en contexte réel . Cette mise à niveau permet non seulement aux développeurs d'évaluer les modèles de manière plus complète, mais aussi de promouvoir le LLM pour créer des valeurs utiles aux utilisateurs finaux.

L’ensemble élargi de critères évalue les trois compétences essentielles d’un LLM moderne.

« Il existe actuellement des centaines de benchmarks différents dans le monde pour évaluer les capacités des grands modèles linguistiques. Cependant, le nombre de benchmarks spécifiques au vietnamien est très limité. Avec le lancement de ces benchmarks en 2023 et 2025, nous espérons diversifier les aspects d'évaluation », a déclaré le Dr Chau Thanh Duc, directeur de la recherche et du développement en intelligence artificielle chez Zalo AI.

Le nouvel ensemble de normes a été lancé sur le site Web de VMLU https://vmlu.ai/ pour permettre aux particuliers et aux groupes de recherche d'évaluer leurs modèles.

Le nouvel ensemble de normes a été lancé sur le site Web de la VMLU.

En collaboration avec les experts de Zalo AI et du JAIST Institute, la VMLU poursuivra ses recherches et développera des normes d'évaluation plus diversifiées en termes de domaines et de difficulté. À l'avenir, la VMLU vise également à développer des normes d'évaluation de la sécurité et de l'intégrité, garantissant ainsi un développement responsable des modèles de LLM.

Source : https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html