Оголошення критеріїв оцінювання для міркування та взаємодії в'єтнамських програм LLM

Zalo AI та Японський передовий інститут науки і технологій (JAIST) представляють нову версію VMLU, сприяючи в'єтнамській спільноті штучного інтелекту удосконалювати високорівневі моделі магістра права (LLM).

ZNews•01/10/2025

Вперше представлений у 2023 році, VMLU (Vietnamese Multitask Language Understanding - розуміння в'єтнамської багатозадачної мови) став новаторським набором стандартів «Зроблено у В'єтнамі», що мотивує багато вітчизняних дослідницьких груп покращувати якість в'єтнамських моделей великих мов (LLM).

Згідно зі статистикою, у 2024 році VMLU оголосила про 45 програм LLM у рейтингах, отримала запити на оцінку від понад 155 організацій та окремих осіб, підсумувала 691 завантаження набору критеріїв оцінки та 3729 оцінок LLM з платформи. Набір стандартів використовується багатьма вітчизняними та іноземними організаціями, такими як VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - Університет Орегону (США), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Zalo AI та JAIST Institute представляють нову версію VMLU.

Оскільки моделі штучного інтелекту стають дедалі інтелектуальнішими, VMLU було оновлено для оцінки складніших компетенцій. Зокрема, розширений набір стандартів оцінює три основні навички сучасного магістра права (LLM), зокрема:

Розуміння прочитаного (ViSQuAD): 3310 запитань оцінюють здатність глибоко розуміти текст та обробляти складні питання на основі специфічних характеристик в'єтнамської мови та контексту.

Логічне мислення (ViDrop): 3090 питань перевіряють логічне мислення учнів магістра права за допомогою таких завдань, як порівняння, лічба та арифметичні обчислення.

Взаємодія (ViDialog): 210 діалогів оцінюють узгодженість, контекстуальне розуміння та застосування міждисциплінарних знань (історія, географія, логіка) у діалозі.

Родзинкою нового набору стандартів є вдосконалений метод оцінювання, який поєднує різноманітні форми – від питань з множинним вибором та відкритими питаннями до вимог до покрокового міркування. Зокрема, VMLU застосовує метод «LLM як суддя» (використання LLM для оцінки LLM) – тенденцію, яку застосовує світова спільнота штучного інтелекту для досягнення більш об’єктивних та масштабних результатів.

З 10 880 питаннями з множинним вибором, що охоплюють 58 тем, розділених на кілька рівнів, версія 2023 року зосереджена на оцінці базових знань з LLM. Тим часом новий набір стандартів йде ще далі, вимірюючи здатність до міркування та взаємодії з LLM у реальних життєвих контекстах . Це оновлення не лише допомагає розробникам більш комплексно оцінювати моделі, але й сприяє створенню корисних цінностей для кінцевих користувачів за допомогою LLM.

Розширений набір критеріїв оцінює три основні навички сучасного магістра права (LLM).

«Наразі у світі існують сотні різних бенчмарків для оцінки можливостей великих мовних моделей. Однак кількість бенчмарків, розроблених спеціально для в'єтнамської мови, дуже обмежена. Із запуском бенчмарків у 2023 та 2025 роках ми сподіваємося урізноманітнити аспекти оцінювання», – сказав доктор Чау Тхань Дик, директор з досліджень та розробок штучного інтелекту в Zalo AI.

Новий набір стандартів було опубліковано на вебсайті VMLU https://vmlu.ai/ для того, щоб окремі особи та дослідницькі групи могли оцінювати свої моделі.

Новий набір стандартів було опубліковано на вебсайті VMLU.

У співпраці з провідними експертами Zalo AI та Інституту JAIST, VMLU продовжуватиме дослідження та розробку більш різноманітних стандартів оцінювання з точки зору галузей та складності. У майбутньому VMLU також прагне розробити стандарти оцінювання безпеки та цілісності, забезпечуючи відповідальну розробку моделей LLM.

Джерело: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html