Oznámení hodnotících kritérií pro uvažování a interakci vietnamského LLM

VMLU (Vietnamese Multitask Language Understanding), poprvé představený v roce 2023, se stal průkopnickým standardem „Make in Vietnam“ a motivoval mnoho domácích výzkumných skupin ke zlepšení kvality vietnamských velkých jazykových modelů (LLM).

Podle statistik VMLU v roce 2024 oznámila 45 LLM v žebříčku, obdržela žádosti o hodnocení od více než 155 organizací a jednotlivců, shrnula 691 stažení sady hodnotících kritérií a 3 729 hodnocení LLM z platformy. Sada standardů je používána mnoha domácími i zahraničními organizacemi, jako jsou VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Zalo AI a JAIST Institute představují novou verzi VMLU.

Vzhledem k tomu, že modely umělé inteligence se stávají stále inteligentnějšími, byl standard VMLU aktualizován, aby mohl hodnotit složitější kompetence. Konkrétně rozšířená sada standardů hodnotí tři klíčové dovednosti moderního LLM, včetně:

Čtení s porozuměním (ViSQuAD): 3 310 otázek hodnotí schopnost porozumět textu do hloubky a zvládat složité otázky na základě specifických charakteristik vietnamského jazyka a kontextu.

Logické uvažování (ViDrop): 3 090 otázek prověřuje schopnosti logického uvažování studentů LLM prostřednictvím úkolů, jako je srovnávání, počítání a aritmetické výpočty.

Interakce (ViDialog): 210 dialogů hodnotí soudržnost, kontextové porozumění a aplikaci multidisciplinárních znalostí (historie, geografie, logika) v dialogu.

Vrcholem nové sady standardů je pokročilá metoda hodnocení, která kombinuje různé formy od otázek s výběrem odpovědí a otevřených otázek až po požadavky na podrobné uvažování. VMLU konkrétně aplikuje metodu „LLM jako soudce“ (využití LLM k hodnocení LLM) – trend, který uplatňuje globální komunita umělé inteligence k dosažení objektivnějších a rozsáhlejších výsledků.

Verze z roku 2023 se s 10 880 otázkami s výběrem odpovědí, které pokrývají 58 témat a jsou rozděleny do několika úrovní, zaměřila na posouzení základních znalostí LLM. Nová sada standardů jde ještě o krok dále a měří schopnost uvažování a interakce LLM v reálných kontextech . Tato aktualizace nejen pomáhá vývojářům komplexněji vyhodnocovat modely, ale také podporuje LLM k vytváření užitečných hodnot pro koncové uživatele.

Rozšířená sada kritérií hodnotí tři základní dovednosti moderního LLM.

„V současné době existují na světě stovky různých benchmarků pro hodnocení schopností velkých jazykových modelů. Počet benchmarků určených konkrétně pro vietnamštinu je však velmi omezený. Se spuštěním benchmarků v letech 2023 a 2025 doufáme, že diverzifikujeme aspekty hodnocení,“ řekl Dr. Chau Thanh Duc, ředitel výzkumu a vývoje umělé inteligence ve společnosti Zalo AI.

Nová sada standardů byla zveřejněna na webových stránkách VMLU https://vmlu.ai/, aby jednotlivci i výzkumné skupiny mohli vyhodnotit své modely.

Nová sada standardů byla zveřejněna na webových stránkách VMLU.

Ve spolupráci s předními odborníky ze Zalo AI a JAIST Institute bude VMLU pokračovat ve výzkumu a vývoji rozmanitějších standardů hodnocení z hlediska oborů a obtížnosti. V budoucnu si VMLU klade za cíl také vyvinout standardy hodnocení bezpečnosti a integrity a zajistit, aby modely LLM byly vyvíjeny zodpovědně.

Zdroj: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html