VMLU (Vietnamese Multitask Language Understanding), poprvé představený v roce 2023, se stal průkopnickým standardem „Make in Vietnam“ a motivoval mnoho domácích výzkumných skupin ke zlepšení kvality vietnamských velkých jazykových modelů (LLM).
Podle statistik VMLU v roce 2024 oznámila 45 LLM v žebříčku, obdržela žádosti o hodnocení od více než 155 organizací a jednotlivců, shrnula 691 stažení sady hodnotících kritérií a 3 729 hodnocení LLM z platformy. Sada standardů je používána mnoha domácími i zahraničními organizacemi, jako jsou VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...
![]() |
Zalo AI a JAIST Institute představují novou verzi VMLU. |
Vzhledem k tomu, že modely umělé inteligence se stávají stále inteligentnějšími, byl standard VMLU aktualizován, aby mohl hodnotit složitější kompetence. Konkrétně rozšířená sada standardů hodnotí tři klíčové dovednosti moderního LLM, včetně:
Čtení s porozuměním (ViSQuAD): 3 310 otázek hodnotí schopnost porozumět textu do hloubky a zvládat složité otázky na základě specifických charakteristik vietnamského jazyka a kontextu.
Logické uvažování (ViDrop): 3 090 otázek prověřuje schopnosti logického uvažování studentů LLM prostřednictvím úkolů, jako je srovnávání, počítání a aritmetické výpočty.
Interakce (ViDialog): 210 dialogů hodnotí soudržnost, kontextové porozumění a aplikaci multidisciplinárních znalostí (historie, geografie, logika) v dialogu.
Vrcholem nové sady standardů je pokročilá metoda hodnocení, která kombinuje různé formy od otázek s výběrem odpovědí a otevřených otázek až po požadavky na podrobné uvažování. VMLU konkrétně aplikuje metodu „LLM jako soudce“ (využití LLM k hodnocení LLM) – trend, který uplatňuje globální komunita umělé inteligence k dosažení objektivnějších a rozsáhlejších výsledků.
Verze z roku 2023 se s 10 880 otázkami s výběrem odpovědí, které pokrývají 58 témat a jsou rozděleny do několika úrovní, zaměřila na posouzení základních znalostí LLM. Nová sada standardů jde ještě o krok dále a měří schopnost uvažování a interakce LLM v reálných kontextech . Tato aktualizace nejen pomáhá vývojářům komplexněji vyhodnocovat modely, ale také podporuje LLM k vytváření užitečných hodnot pro koncové uživatele.
![]() |
Rozšířená sada kritérií hodnotí tři základní dovednosti moderního LLM. |
„V současné době existují na světě stovky různých benchmarků pro hodnocení schopností velkých jazykových modelů. Počet benchmarků určených konkrétně pro vietnamštinu je však velmi omezený. Se spuštěním benchmarků v letech 2023 a 2025 doufáme, že diverzifikujeme aspekty hodnocení,“ řekl Dr. Chau Thanh Duc, ředitel výzkumu a vývoje umělé inteligence ve společnosti Zalo AI.
Nová sada standardů byla zveřejněna na webových stránkách VMLU https://vmlu.ai/, aby jednotlivci i výzkumné skupiny mohli vyhodnotit své modely.
![]() |
Nová sada standardů byla zveřejněna na webových stránkách VMLU. |
Ve spolupráci s předními odborníky ze Zalo AI a JAIST Institute bude VMLU pokračovat ve výzkumu a vývoji rozmanitějších standardů hodnocení z hlediska oborů a obtížnosti. V budoucnu si VMLU klade za cíl také vyvinout standardy hodnocení bezpečnosti a integrity a zajistit, aby modely LLM byly vyvíjeny zodpovědně.
Zdroj: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html
Komentář (0)