AI-modeller trenger et sett med standarder som grundig vurderer komplekse funksjoner

VMLU (Learning, Assessment and Ranking Platform for Vietnamese Language LLMs) 2024 Development Status Report (LLM) har vist en kraftig økning i antall LLM-er som fokuserer på vietnamesisk. Mer spesifikt har VMLU-plattformen publisert 45 LLM-er på rangeringen, mottatt evalueringsforespørsler fra mer enn 155 organisasjoner og enkeltpersoner, og oppsummert 691 nedlastinger av evalueringskriteriene og 3729 LLM-evalueringer fra plattformen i 2024.

Mange innenlandske og utenlandske organisasjoner har brukt VMLU, som VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV-teamene - Samsung...

VMLU engelsk 1

VMLU vil lansere sitt første sett med vurderingskriterier for LLM i 2023.

I takt med den økende kvantiteten forbedres også kvaliteten på LLM-modeller i økende grad. Hvis LLM-er tidligere ble trent rundt grunnleggende kunnskap, fokuserer utviklerne nå på å utvide flere ferdigheter som leseforståelse, samtaleutveksling eller menneskelignende resonnement.

Som svar på den stadig sterkere utviklingen av avanserte vietnamesiske LLM-modeller har VMLU publisert nye sett med standarder for å ytterligere vurdere modellenes komplekse egenskaper.

Standarder som fremmer LLM-ekspertise

Tidligere, da markedet manglet kvalitetsstandarder, måtte mange innenlandske forskningsgrupper bygge sine egne interne vurderingsverktøy med sine egne standarder. Dette begrenset evalueringen så vel som sammenligningen av modellkvalitet med eksisterende LLM-er på markedet for å ha passende opplæringsstrategier.

For å løse dette problemet ble VMLU – det første settet med felles «Make in Vietnam»-standarder – undersøkt av et team av ledende vietnamesiske eksperter i november 2023 og levert gratis til samfunnet.

Standardsettet med 10 880 flervalgsspørsmål, som dekker 58 emner, fordelt på mange nivåer, har hjulpet utviklere med å enkelt få tilgang til generelle vurderingsdatasett. Samtidig kan du dra nytte av VMLUs rangeringer for å sammenligne modellene sine direkte med eksisterende LLM-er på markedet.

Dr. Dang Tran Thai, leder for avdelingen for naturlig språkbehandling - VinBigData Virtual Assistant Technology Block, hvis ViGPT-1.6B-v1-modell er på rangeringen av modeller som er trent fra bunnen av (LLM-trent fra bunnen av) av VMLU, sa: «VMLU har relativt komplette og omfattende data for å evaluere kunnskapskapasiteten til LLM for vietnamesere. VMLU er ikke bare nyttig for å evaluere kvaliteten på LLM i hvert utviklingstrinn, men også et mål på effektiviteten av eksperimentene våre under opplæringsprosessen.»

«Dette vil være et «springbrett» for å fremme utviklingen av AI generelt og LLM spesielt, fordi vi må ha gode standarder slik at vi har et grunnlag for å trene modeller av høy kvalitet», la Dr. Dang Tran Thai til.

Dr. Bach Hung Nguyen, sjefsingeniør hos Microsoft, bekreftet også nytten av VMLU for å evaluere ytelsen til LLM-modeller på vietnamesisk, noe som hjelper utviklingsenheter med å bedre forstå modellens funksjoner. I tillegg forventer Dr. Bach Hung Nguyen at VMLU vil legge til et sett med nyttige ferdigheter som resonnering, kodegenerering og tekstoppsummering.

Ny versjon av VMLU tar sikte på å perfeksjonere høyereordens LLM-modeller

Nylig fortsetter VMLU å annonsere et nytt sett med standarder som vurderer resonnerings- og samhandlingsevnene til en LLM. Det utvidede settet med standarder vurderer tre kjerneferdigheter hos en moderne LLM, inkludert:

Leseforståelse (ViSQuAD) : 3310 spørsmål vurderer evnen til å forstå tekst i dybden og håndtere komplekse spørsmål basert på de spesifikke egenskapene til vietnamesisk språk og kontekst.

Resonnering (ViDrop) : 3090 spørsmål utfordrer LLMs logiske resonneringsevner gjennom oppgaver som sammenligning, telling og aritmetiske beregninger.

Samhandling (ViDialog) : 210 dialoger vurderer sammenheng, evne til å forstå kontekst og anvende tverrfaglig kunnskap (historie, geografi, logikk) i dialog.

Denne oppgraderingen hjelper ikke bare utviklere med å evaluere modeller mer omfattende, men fremmer også LLM for å skape nyttige verdier for sluttbrukere.

VMLU-bror 2

Nye VMLU-standarder skal lanseres i 2025.

Dr. Chau Thanh Duc, direktør for forskning og utvikling innen kunstig intelligens ved Zalo AI – organisasjonen som utviklet VMLU, sa: «Det finnes for tiden hundrevis av forskjellige standarder i verden for å evaluere kapasiteten til store språkmodeller. Antallet vurderingsstandarder spesifikt for vietnamesisk er imidlertid svært begrenset. Med lanseringen av standardene i 2023 og 2025 håper vi å diversifisere vurderingsaspektene.»

Det nye settet med standarder er lansert på VMLUs nettsted https://vmlu.ai/ slik at enkeltpersoner og forskningsgrupper kan evaluere modellene sine.

VMLU-bror 3

Det nye settet med standarder er oppdatert på VMLUs nettsider.

VMLU er en plattform for evaluering og rangering av vietnamesiske LLM-modeller, bygget av Zalo AI i samarbeid med Japan Advanced Institute of Science and Technology (JAIST), og tilgjengelig gratis for samfunnet fra november 2023. I et forsøk på å støtte det vietnamesiske AI-samfunnet, bidrar VMLU til å fremme det vietnamesiske folkets evne til å mestre nye teknologier. Dermed bidrar de til landets teknologiske utvikling med en banebrytende orientering innen vitenskap, teknologi, innovasjon og nasjonal digital transformasjon.

Kilde: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html