Вперше представлений у 2023 році, VMLU (Vietnamese Multitask Language Understanding - розуміння в'єтнамської багатозадачної мови) став новаторським набором стандартів «Зроблено у В'єтнамі», що мотивує багато вітчизняних дослідницьких груп покращувати якість в'єтнамських моделей великих мов (LLM).
Згідно зі статистикою, у 2024 році VMLU оголосила про 45 програм LLM у рейтингах, отримала запити на оцінку від понад 155 організацій та окремих осіб, підсумувала 691 завантаження набору критеріїв оцінки та 3729 оцінок LLM з платформи. Набір стандартів використовується багатьма вітчизняними та іноземними організаціями, такими як VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - Університет Орегону (США), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...
![]() |
Zalo AI та JAIST Institute представляють нову версію VMLU. |
Оскільки моделі штучного інтелекту стають дедалі інтелектуальнішими, VMLU було оновлено для оцінки складніших компетенцій. Зокрема, розширений набір стандартів оцінює три основні навички сучасного магістра права (LLM), зокрема:
Розуміння прочитаного (ViSQuAD): 3310 запитань оцінюють здатність глибоко розуміти текст та обробляти складні питання на основі специфічних характеристик в'єтнамської мови та контексту.
Логічне мислення (ViDrop): 3090 питань перевіряють логічне мислення учнів магістра права за допомогою таких завдань, як порівняння, лічба та арифметичні обчислення.
Взаємодія (ViDialog): 210 діалогів оцінюють узгодженість, контекстуальне розуміння та застосування міждисциплінарних знань (історія, географія, логіка) у діалозі.
Родзинкою нового набору стандартів є вдосконалений метод оцінювання, який поєднує різноманітні форми – від питань з множинним вибором та відкритими питаннями до вимог до покрокового міркування. Зокрема, VMLU застосовує метод «LLM як суддя» (використання LLM для оцінки LLM) – тенденцію, яку застосовує світова спільнота штучного інтелекту для досягнення більш об’єктивних та масштабних результатів.
З 10 880 питаннями з множинним вибором, що охоплюють 58 тем, розділених на кілька рівнів, версія 2023 року зосереджена на оцінці базових знань з LLM. Тим часом новий набір стандартів йде ще далі, вимірюючи здатність до міркування та взаємодії з LLM у реальних життєвих контекстах . Це оновлення не лише допомагає розробникам більш комплексно оцінювати моделі, але й сприяє створенню корисних цінностей для кінцевих користувачів за допомогою LLM.
![]() |
Розширений набір критеріїв оцінює три основні навички сучасного магістра права (LLM). |
«Наразі у світі існують сотні різних бенчмарків для оцінки можливостей великих мовних моделей. Однак кількість бенчмарків, розроблених спеціально для в'єтнамської мови, дуже обмежена. Із запуском бенчмарків у 2023 та 2025 роках ми сподіваємося урізноманітнити аспекти оцінювання», – сказав доктор Чау Тхань Дик, директор з досліджень та розробок штучного інтелекту в Zalo AI.
Новий набір стандартів було опубліковано на вебсайті VMLU https://vmlu.ai/ для того, щоб окремі особи та дослідницькі групи могли оцінювати свої моделі.
![]() |
Новий набір стандартів було опубліковано на вебсайті VMLU. |
У співпраці з провідними експертами Zalo AI та Інституту JAIST, VMLU продовжуватиме дослідження та розробку більш різноманітних стандартів оцінювання з точки зору галузей та складності. У майбутньому VMLU також прагне розробити стандарти оцінювання безпеки та цілісності, забезпечуючи відповідальну розробку моделей LLM.
Джерело: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html
Коментар (0)