Modely umělé inteligence potřebují sadu standardů, které podrobně posuzují komplexní schopnosti.

Zpráva o stavu vývoje (LLM) platformy VMLU (Learning, Assessment and Ranking Platform for Vietnamese Language LLM) za rok 2024 ukázala prudký nárůst počtu LLM zaměřených na vietnamštinu. Konkrétně platforma VMLU v žebříčku zveřejnila 45 LLM, obdržela žádosti o hodnocení od více než 155 organizací a jednotlivců a shrnula 691 stažení hodnotících kritérií a 3 729 hodnocení LLM z platformy v roce 2024.

Mnoho domácích i zahraničních organizací používá VMLU, jako například VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

VMLU Angličtina 1

VMLU spustí svou první sadu hodnotících kritérií pro LLM v roce 2023.

Spolu s rostoucím množstvím se stále zlepšuje i kvalita modelů LLM. Pokud se v minulosti LLM modelování zaměřovalo na základní znalosti, nyní se vývojáři zaměřují na rozšiřování dovedností, jako je porozumění textu, komunikace v konverzaci nebo uvažování podobné lidskému.

V reakci na stále silnější rozvoj pokročilých vietnamských modelů LLM publikovala VMLU nové sady standardů pro další posouzení komplexních schopností těchto modelů.

Standardy, které podporují excelenci v LLM

Dříve, když na trhu chyběly standardy kvality, muselo mnoho domácích výzkumných skupin vytvářet vlastní interní nástroje hodnocení s vlastními standardy. To omezovalo hodnocení i srovnání kvality modelů s existujícími LLM na trhu, aby bylo možné vytvořit vhodné tréninkové strategie.

Aby se tento problém vyřešil, v listopadu 2023 tým předních vietnamských odborníků prozkoumal a bezplatně poskytl komunitě VMLU - první soubor společných standardů „Make in Vietnam“.

Standardní sada 10 880 otázek s výběrem odpovědí, které pokrývají 58 témat a jsou rozděleny do mnoha úrovní, pomohla vývojářům snadno získat přístup k obecným datovým sadám pro hodnocení. Zároveň je možné využít žebříčky VMLU k přímému porovnání jejich modelů se stávajícími LLM programy na trhu.

Dr. Dang Tran Thai, vedoucí oddělení zpracování přirozeného jazyka – technologický blok virtuálních asistentů VinBigData, jehož model ViGPT-1.6B-v1 se umístil v žebříčku modelů „from-scratch“ (LLM trénovaných od nuly) VMLU, uvedl: „VMLU má relativně úplná a komplexní data pro vyhodnocení znalostní kapacity LLM pro vietnamštinu. VMLU je užitečný nejen pro hodnocení kvality LLM v každé fázi vývoje, ale také jako měřítko efektivity našich experimentů během trénovacího procesu.“

„Toto bude ‚odrazový můstek‘ pro podporu rozvoje umělé inteligence obecně a zejména LLM, protože musíme mít dobré standardy, abychom měli základ pro trénování vysoce kvalitních modelů,“ dodal Dr. Dang Tran Thai.

Hlavní inženýr ve společnosti Microsoft - Dr. Bach Hung Nguyen také potvrdil užitečnost VMLU při hodnocení výkonnosti modelů LLM ve vietnamštině, což pomáhá vývojovým jednotkám lépe porozumět možnostem modelu. Dr. Bach Hung Nguyen dále očekává, že VMLU přidá sadu užitečných dovedností, jako je uvažování, generování kódu a sumarizace textu.

Nová verze VMLU si klade za cíl zdokonalit modely LLM vyššího řádu

VMLU nedávno oznámila novou sadu standardů, které hodnotí schopnosti uvažování a interakce v oblasti LLM. Rozšířená sada standardů hodnotí 3 klíčové dovednosti moderního LLM, včetně:

Čtení s porozuměním (ViSQuAD) : 3 310 otázek hodnotí schopnost porozumět textu do hloubky a zvládat složité otázky na základě specifických charakteristik vietnamského jazyka a kontextu.

Logické uvažování (ViDrop) : 3 090 otázek prověřuje schopnosti logického uvažování studentů LLM prostřednictvím úkolů, jako je srovnávání, počítání a aritmetické výpočty.

Interakce (ViDialog) : 210 dialogů hodnotí soudržnost, schopnost porozumět kontextu a aplikovat v dialogu multidisciplinární znalosti (historie, geografie, logika).

Tato aktualizace nejen pomáhá vývojářům komplexněji vyhodnocovat modely, ale také podporuje LLM k vytváření užitečných hodnot pro koncové uživatele.

Bratr VMLU 2

Nové standardy VMLU budou vydány v roce 2025.

Dr. Chau Thanh Duc, ředitel výzkumu a vývoje umělé inteligence ve společnosti Zalo AI – organizaci, která vyvinula VMLU, uvedl: „V současné době existují na světě stovky různých standardů pro hodnocení kapacity velkých jazykových modelů. Počet hodnotících standardů určených konkrétně pro vietnamštinu je však velmi omezený. Doufáme, že se zavedením standardů v letech 2023 a 2025 diverzifikujeme aspekty hodnocení.“

Nová sada standardů byla zveřejněna na webových stránkách VMLU https://vmlu.ai/, aby jednotlivci i výzkumné skupiny mohli vyhodnotit své modely.

Bratr VMLU 3

Nová sada standardů byla aktualizována na webových stránkách VMLU.

VMLU je platforma pro hodnocení a hodnocení vietnamských modelů LLM, které vytvořila společnost Zalo AI ve spolupráci s Japonským pokročilým institutem pro vědu a technologii (JAIST) a které jsou komunitě poskytovány zdarma od listopadu 2023. Ve snaze podpořit vietnamskou komunitu umělé inteligence přispívá VMLU k podpoře schopnosti vietnamského lidu ovládat nové technologie. Tím přispívá k éře technologického rozvoje země s průlomovou orientací na vědu, technologie, inovace a národní digitální transformaci.

Zdroj: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html