Kunngjøring av vurderingskriteriene for resonnement og samhandling for vietnamesiske LLM-studenter

VMLU (Vietnamese Multitask Language Understanding) ble først introdusert i 2023 og har blitt et banebrytende «Make in Vietnam»-standardsett, noe som motiverer mange innenlandske forskningsgrupper til å forbedre kvaliteten på vietnamesiske store språkmodeller (LLM).

Ifølge statistikk annonserte VMLU i 2024 45 LLM-er på rangeringen, mottok evalueringsforespørsler fra mer enn 155 organisasjoner og enkeltpersoner, oppsummerte 691 nedlastinger av evalueringskriteriene og 3729 LLM-evalueringer fra plattformen. Standardsettet brukes av mange innenlandske og utenlandske organisasjoner som VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV-teamene - Samsung...

Zalo AI og JAIST Institute introduserer ny versjon av VMLU.

Etter hvert som AI-modeller blir stadig mer intelligente, har VMLU blitt oppgradert for å vurdere mer komplekse kompetanser. Mer spesifikt vurderer det utvidede settet med standarder tre kjerneferdigheter hos en moderne LLM, inkludert:

Leseforståelse (ViSQuAD): 3310 spørsmål vurderer evnen til å forstå tekst i dybden og håndtere komplekse spørsmål basert på de spesifikke egenskapene til vietnamesisk språk og kontekst.

Resonnering (ViDrop): 3090 spørsmål utfordrer LLMs logiske resonneringsevner gjennom oppgaver som sammenligning, telling og aritmetiske beregninger.

Interaksjon (ViDialog): 210 dialoger vurderer sammenheng, kontekstuell forståelse og anvendelse av tverrfaglig kunnskap (historie, geografi, logikk) i dialog.

Høydepunktet i det nye settet med standarder er den avanserte vurderingsmetoden, som kombinerer en rekke former fra flervalgsspørsmål med åpne spørsmål til trinnvise resonnementskrav. VMLU anvender spesielt metoden «LLM som dommer» (bruker LLM til å evaluere LLM) – en trend som brukes av det globale AI-fellesskapet for å oppnå mer objektive og storskala resultater.

Med 10 880 flervalgsoppgaver, som dekker 58 emner, fordelt på flere nivåer, fokuserte 2023-versjonen på å vurdere grunnleggende kunnskap om LLM. Samtidig går det nye settet med standarder et skritt videre, og måler resonnements- og samhandlingsevnen til LLM i virkelige sammenhenger . Denne oppgraderingen hjelper ikke bare utviklere med å evaluere modeller mer omfattende, men fremmer også LLM for å skape nyttige verdier for sluttbrukere.

Det utvidede settet med kriterier vurderer de tre kjerneferdighetene til en moderne LLM.

«Det finnes for tiden hundrevis av forskjellige referansetester i verden for å evaluere egenskapene til store språkmodeller. Antallet referansetester spesifikt for vietnamesisk er imidlertid svært begrenset. Med lanseringen av referansetester i 2023 og 2025 håper vi å diversifisere vurderingsaspektene», sa Dr. Chau Thanh Duc, direktør for forskning og utvikling innen kunstig intelligens hos Zalo AI.

Det nye settet med standarder er lansert på VMLUs nettsted https://vmlu.ai/ slik at enkeltpersoner og forskningsgrupper kan evaluere modellene sine.

Det nye settet med standarder er lansert på VMLUs nettsider.

I samarbeid med ledende eksperter ved Zalo AI og JAIST Institute vil VMLU fortsette å forske på og utvikle mer varierte vurderingsstandarder med tanke på felt og vanskelighetsgrad. I fremtiden tar VMLU også sikte på å utvikle vurderingsstandarder for sikkerhet og integritet, og sikre at LLM-modeller utvikles på en ansvarlig måte.

Kilde: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html