Vietnam.vn - Nền tảng quảng bá Việt Nam

Annonce des critères d'évaluation du raisonnement et de l'interaction du LLM vietnamien

Zalo AI et le Japan Advanced Institute of Science and Technology (JAIST) présentent une nouvelle version de VMLU, encourageant la communauté vietnamienne de l'IA à perfectionner des modèles LLM de haut niveau.

ZNewsZNews01/10/2025

Lancé pour la première fois en 2023, le VMLU (Vietnamese Multitask Language Understanding) est devenu un ensemble de normes pionnier « Made in Vietnam », motivant de nombreux groupes de recherche nationaux à améliorer la qualité des grands modèles de langage vietnamien (LLM).

Selon les statistiques, en 2024, la VMLU a classé 45 LLM, a reçu des demandes d'évaluation de plus de 155 organisations et particuliers, a compilé 691 téléchargements des critères d'évaluation et 3 729 évaluations de LLM depuis la plateforme. Ces normes sont utilisées par de nombreuses organisations nationales et internationales, telles que VinBigData, VNPT AI, Viettel Solutions, l'Université des Sciences et Technologies (VNU-HCM), UONLP x Ontocord (Université de l'Oregon, États-Unis), DAMO Academy (Alibaba Group), SDSRV teams (Samsung).

VMLU anh 1

Zalo AI et JAIST Institute présentent une nouvelle version de VMLU.

Face à l'intelligence croissante des modèles d'IA, la VMLU a été modernisée pour évaluer des compétences plus complexes. Plus précisément, le référentiel élargi évalue trois compétences clés d'un LLM moderne, notamment :

Compréhension de lecture (ViSQuAD) : 3 310 questions évaluent la capacité à comprendre un texte en profondeur et à gérer des questions complexes en fonction des caractéristiques spécifiques de la langue et du contexte vietnamiens.

Raisonnement (ViDrop) : 3 090 questions mettent au défi les capacités de raisonnement logique du LLM à travers des tâches telles que la comparaison, le comptage et les calculs arithmétiques.

Interaction (ViDialog) : 210 dialogues évaluent la cohérence, la compréhension contextuelle et l'application des connaissances multidisciplinaires (histoire, géographie, logique) dans le dialogue.

Le point fort de ce nouveau référentiel réside dans sa méthode d'évaluation avancée, combinant diverses formes, allant des questions à choix multiples et ouvertes aux exigences de raisonnement étape par étape. La VMLU applique notamment la méthode « LLM as a judge » (utilisation du LLM pour évaluer les LLM), une tendance adoptée par la communauté mondiale de l'IA pour obtenir des résultats plus objectifs et à grande échelle.

Avec 10 880 questions à choix multiples couvrant 58 sujets et réparties en plusieurs niveaux, la version 2023 se concentrait sur l'évaluation des connaissances fondamentales du LLM. Le nouveau référentiel va plus loin en mesurant les capacités de raisonnement et d'interaction du LLM en contexte réel . Cette mise à niveau permet non seulement aux développeurs d'évaluer les modèles de manière plus complète, mais aussi de promouvoir le LLM pour créer des valeurs utiles aux utilisateurs finaux.

VMLU anh 2

L’ensemble élargi de critères évalue les trois compétences essentielles d’un LLM moderne.

« Il existe actuellement des centaines de benchmarks différents dans le monde pour évaluer les capacités des grands modèles linguistiques. Cependant, le nombre de benchmarks spécifiques au vietnamien est très limité. Avec le lancement de ces benchmarks en 2023 et 2025, nous espérons diversifier les aspects d'évaluation », a déclaré le Dr Chau Thanh Duc, directeur de la recherche et du développement en intelligence artificielle chez Zalo AI.

Le nouvel ensemble de normes a été lancé sur le site Web de VMLU https://vmlu.ai/ pour permettre aux particuliers et aux groupes de recherche d'évaluer leurs modèles.

VMLU anh 3

Le nouvel ensemble de normes a été lancé sur le site Web de la VMLU.

En collaboration avec les experts de Zalo AI et du JAIST Institute, la VMLU poursuivra ses recherches et développera des normes d'évaluation plus diversifiées en termes de domaines et de difficulté. À l'avenir, la VMLU vise également à développer des normes d'évaluation de la sécurité et de l'intégrité, garantissant ainsi un développement responsable des modèles de LLM.

Source : https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html


Comment (0)

No data
No data

Même catégorie

Visitez le village de pêcheurs de Lo Dieu à Gia Lai pour voir des pêcheurs « dessiner » des trèfles sur la mer
Un serrurier transforme des canettes de bière en lanternes vibrantes de la mi-automne
Dépensez des millions pour apprendre la composition florale et créez des liens pendant la fête de la mi-automne
Il y a une colline de fleurs violettes de Sim dans le ciel de Son La

Même auteur

Patrimoine

;

Chiffre

;

Entreprise

;

No videos available

Événements actuels

;

Système politique

;

Locale

;

Produit

;