Bekendmaking van de beoordelingscriteria voor redeneren en interactie van de Vietnamese LLM

VMLU (Vietnamese Multitask Language Understanding), voor het eerst geïntroduceerd in 2023, is uitgegroeid tot een baanbrekende 'Make in Vietnam'-standaardset die veel binnenlandse onderzoeksgroepen motiveert om de kwaliteit van Vietnamese grote taalmodellen (LLM) te verbeteren.

Volgens statistieken heeft VMLU in 2024 45 LLM's op de ranglijst geplaatst, evaluatieverzoeken ontvangen van meer dan 155 organisaties en personen, 691 downloads van de evaluatiecriteria verzameld en 3.729 LLM-evaluaties van het platform verzameld. De standaarden worden gebruikt door vele binnen- en buitenlandse organisaties, zoals VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (VS), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Zalo AI en JAIST Institute introduceren nieuwe versie van VMLU.

Naarmate AI-modellen steeds intelligenter worden, is de VMLU geüpgraded om complexere competenties te beoordelen. De uitgebreide set standaarden beoordeelt specifiek drie kernvaardigheden van een moderne LLM, waaronder:

Leesbegrip (ViSQuAD): 3.310 vragen toetsen het vermogen om een tekst diepgaand te begrijpen en complexe vragen te beantwoorden op basis van de specifieke kenmerken van de Vietnamese taal en context.

Redeneren (ViDrop): 3.090 vragen dagen het logisch redeneervermogen van de LLM uit door middel van taken zoals vergelijken, tellen en rekenkundige berekeningen.

Interactie (ViDialog): 210 dialogen beoordelen de samenhang, het contextuele begrip en de toepassing van multidisciplinaire kennis (geschiedenis, geografie, logica) in dialogen.

Het hoogtepunt van de nieuwe reeks normen is de geavanceerde beoordelingsmethode, die een verscheidenheid aan vormen combineert, van meerkeuzevragen en open vragen tot stapsgewijze redeneervereisten. VMLU past met name de "LLM als beoordelaar" -methode toe (LLM gebruiken om LLM te evalueren) - een trend die door de wereldwijde AI-gemeenschap wordt toegepast om objectievere en grootschaligere resultaten te bereiken.

Met 10.880 meerkeuzevragen, verspreid over 58 onderwerpen en verdeeld over verschillende niveaus, richtte de versie van 2023 zich op het toetsen van de basiskennis van de LLM. De nieuwe set standaarden gaat een stap verder en meet het redeneervermogen en de interactievaardigheden van de LLM in praktijkgerichte contexten . Deze upgrade helpt ontwikkelaars niet alleen om modellen uitgebreider te evalueren, maar stimuleert de LLM ook om bruikbare waarden voor eindgebruikers te creëren.

De uitgebreide reeks criteria beoordeelt de drie kernvaardigheden van een moderne LLM.

"Er zijn momenteel honderden verschillende benchmarks wereldwijd om de mogelijkheden van grote taalmodellen te evalueren. Het aantal benchmarks specifiek voor het Vietnamees is echter zeer beperkt. Met de lancering van benchmarks in 2023 en 2025 hopen we de beoordelingsaspecten te diversifiëren", aldus Dr. Chau Thanh Duc, directeur Artificial Intelligence Research & Development bij Zalo AI.

De nieuwe reeks normen is gelanceerd op de VMLU-website https://vmlu.ai/ zodat individuen en onderzoeksgroepen hun modellen kunnen evalueren.

De nieuwe reeks normen is op de VMLU-website gelanceerd.

In samenwerking met vooraanstaande experts van Zalo AI en het JAIST Institute zal de VMLU doorgaan met het onderzoeken en ontwikkelen van meer diverse beoordelingsnormen qua vakgebieden en moeilijkheidsgraad. In de toekomst streeft de VMLU er ook naar om normen voor veiligheids- en integriteitsbeoordeling te ontwikkelen, om ervoor te zorgen dat LLM-modellen op verantwoorde wijze worden ontwikkeld.

Bron: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html