Les modèles d’IA ont besoin d’un ensemble de normes qui évaluent en profondeur les capacités complexes

Le rapport 2024 de la VMLU (Plateforme d'apprentissage, d'évaluation et de classement des LLM en vietnamien) sur l'état d'avancement du développement des LLM a révélé une forte augmentation du nombre de LLM axés sur le vietnamien. Plus précisément, la plateforme VMLU a publié 45 LLM dans le classement, reçu des demandes d'évaluation de plus de 155 organisations et particuliers, et recensé 691 téléchargements des critères d'évaluation et 3 729 évaluations de LLM en 2024.

De nombreuses organisations nationales et étrangères utilisent VMLU telles que VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

VMLU Anglais 1

La VMLU lancera son premier ensemble de critères d'évaluation LLM en 2023.

Parallèlement à la multiplication des modèles de LLM, la qualité s'améliore également. Si, par le passé, les LLM étaient axés sur les connaissances de base, les concepteurs se concentrent désormais sur le développement de compétences supplémentaires telles que la compréhension écrite, l'échange conversationnel ou le raisonnement humain.

En réponse au développement de plus en plus fort des modèles LLM vietnamiens avancés, la VMLU a publié de nouveaux ensembles de normes pour évaluer davantage les capacités complexes des modèles.

Des normes qui favorisent l'excellence du LLM

Auparavant, face à l'absence de normes de qualité sur le marché, de nombreux groupes de recherche nationaux devaient élaborer leurs propres outils d'évaluation internes, selon leurs propres normes. Cela limitait l'évaluation et la comparaison de la qualité des modèles avec les LLM existants sur le marché, afin de définir des stratégies de formation adaptées.

Pour résoudre ce problème, en novembre 2023, VMLU - le premier ensemble de normes communes « Made in Vietnam » a été étudié par une équipe d'experts vietnamiens de premier plan et fourni gratuitement à la communauté.

L'ensemble standard de 10 880 questions à choix multiples, couvrant 58 sujets et réparties en plusieurs niveaux, a permis aux développeurs d'accéder facilement à des ensembles de données d'évaluation générales. Profitez également des classements de la VMLU pour comparer directement leurs modèles avec les LLM existants sur le marché.

Dr. Dang Tran Thai, Chef du Département de Traitement du Langage Naturel - VinBigData Virtual Assistant Technology Block, dont le modèle ViGPT-1.6B-v1 figure dans le classement des modèles from-scratch (LLM formés from scratch) de VMLU, a déclaré : « VMLU dispose de données relativement complètes et exhaustives pour évaluer la capacité de connaissance du LLM pour les vietnamiens. VMLU est non seulement utile pour évaluer la qualité du LLM à chaque étape de développement, mais aussi une mesure de l'efficacité de nos expériences pendant le processus de formation. »

« Ce sera un « tremplin » pour promouvoir le développement de l'IA en général et du LLM en particulier, car nous devons avoir de bonnes normes afin d'avoir une base pour former des modèles de haute qualité », a ajouté le Dr Dang Tran Thai.

Le Dr Bach Hung Nguyen, ingénieur principal chez Microsoft, a également confirmé l'utilité de VMLU pour évaluer les performances des modèles LLM en vietnamien, aidant ainsi les équipes de développement à mieux comprendre les capacités du modèle. Il espère également que VMLU apportera des compétences utiles telles que le raisonnement, la génération de code et la synthèse de texte.

La nouvelle version de VMLU vise à perfectionner les modèles LLM d'ordre supérieur

Récemment, la VMLU a annoncé un nouveau référentiel, évaluant les capacités de raisonnement et d'interaction des candidats au LLM. Ce référentiel élargi évalue trois compétences clés d'un LLM moderne, notamment :

Compréhension de lecture (ViSQuAD) : 3 310 questions évaluent la capacité à comprendre un texte en profondeur et à gérer des questions complexes en fonction des caractéristiques spécifiques de la langue et du contexte vietnamiens.

Raisonnement (ViDrop) : 3 090 questions mettent au défi les capacités de raisonnement logique du LLM à travers des tâches telles que la comparaison, le comptage et les calculs arithmétiques.

Interaction (ViDialog) : 210 dialogues évaluent la cohérence, la capacité à comprendre le contexte et à appliquer des connaissances multidisciplinaires (histoire, géographie, logique) dans le dialogue.

Cette mise à niveau aide non seulement les développeurs à évaluer les modèles de manière plus complète, mais favorise également LLM pour créer des valeurs utiles pour les utilisateurs finaux.

Frère VMLU 2

De nouvelles normes VMLU seront publiées en 2025.

Le Dr Chau Thanh Duc, directeur de la recherche et du développement en intelligence artificielle chez Zalo AI, l'organisation à l'origine de la VMLU, a déclaré : « Il existe actuellement des centaines de normes différentes dans le monde pour évaluer la capacité des grands modèles linguistiques. Cependant, le nombre de normes d'évaluation spécifiques au vietnamien est très limité. Avec le lancement de ces normes en 2023 et 2025, nous espérons diversifier les aspects de l'évaluation. »

Le nouvel ensemble de normes a été lancé sur le site Web de VMLU https://vmlu.ai/ pour permettre aux particuliers et aux groupes de recherche d'évaluer leurs modèles.

Frère VMLU 3

Le nouvel ensemble de normes a été mis à jour sur le site Web de la VMLU.

VMLU est une plateforme d'évaluation et de classement des modèles de masters vietnamiens (LLM), développée par Zalo AI en collaboration avec le Japan Advanced Institute of Science and Technology (JAIST), et mise à disposition gratuitement à la communauté depuis novembre 2023. En accompagnant la communauté vietnamienne de l'IA, VMLU contribue à promouvoir la maîtrise des nouvelles technologies par les Vietnamiens. Elle contribue ainsi au développement technologique du pays grâce à une orientation innovante en matière de science, de technologie, d'innovation et de transformation numérique nationale.

Des normes qui favorisent l'excellence du LLM

La nouvelle version de VMLU vise à perfectionner les modèles LLM d'ordre supérieur

Comment (0)