AI-modeller behöver en uppsättning standarder som djupt utvärderar komplexa funktioner

VMLU:s (Learning, Assessment and Ranking Platform for Vietnamese Language LLMs) utvecklingsstatusrapport (LLM) för 2024 har visat en kraftig ökning av antalet LLM:er med fokus på vietnamesiska. Mer specifikt har VMLU-plattformen publicerat 45 LLM:er på rankningen, mottagit utvärderingsförfrågningar från fler än 155 organisationer och individer, samt sammanfattat 691 nedladdningar av utvärderingskriterierna och 3 729 LLM-utvärderingar från plattformen under 2024.

Många inhemska och utländska organisationer har använt VMLU, såsom VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV-teams - Samsung...

VMLU Engelska 1

VMLU kommer att lansera sin första uppsättning bedömningskriterier för juridikexamen under 2023.

I takt med att kvantiteten ökar förbättras även kvaliteten på LLM-modeller alltmer. Om LLM-modeller tidigare utbildades kring grundläggande kunskaper, fokuserar utvecklarna nu på att utöka fler färdigheter som läsförståelse, samtalsutbyte eller människoliknande resonemang.

Som svar på den allt starkare utvecklingen av avancerade vietnamesiska LLM-modeller har VMLU publicerat nya uppsättningar standarder för att ytterligare bedöma modellernas komplexa kapacitet.

Standarder som främjar excellens i juridik

Tidigare, när marknaden saknade kvalitetsstandarder, var många inhemska forskargrupper tvungna att bygga sina egna interna bedömningsverktyg med sina egna standarder. Detta begränsade utvärderingen såväl som jämförelsen av modellkvalitet med befintliga juridikprogram på marknaden för att ha lämpliga utbildningsstrategier.

För att lösa detta problem undersöktes VMLU – den första uppsättningen gemensamma "Make in Vietnam"-standarder – i november 2023 av ett team av ledande vietnamesiska experter och tillhandahölls kostnadsfritt till samhället.

Standarduppsättningen med 10 880 flervalsfrågor, som täcker 58 ämnen och är uppdelade i många nivåer, har hjälpt utvecklare att enkelt få tillgång till allmänna bedömningsdata. Samtidigt kan man dra nytta av VMLU:s rankningar för att direkt jämföra sina modeller med befintliga juridikprogram på marknaden.

Dr. Dang Tran Thai, chef för avdelningen för naturlig språkbehandling - VinBigData Virtual Assistant Technology Block, vars ViGPT-1.6B-v1-modell finns med i rankningen av från grunden-modeller (LLM-tränade från grunden) av VMLU, sa: "VMLU har relativt kompletta och omfattande data för att utvärdera kunskapskapaciteten hos LLM för vietnameser. VMLU är inte bara användbart för att utvärdera kvaliteten på LLM i varje utvecklingsstadium, utan också ett mått på effektiviteten av våra experiment under träningsprocessen."

”Detta kommer att vara en ’språngbräda’ för att främja utvecklingen av AI i allmänhet och LLM i synnerhet, eftersom vi måste ha goda standarder så att vi har en grund för att utbilda högkvalitativa modeller”, tillade Dr. Dang Tran Thai.

Dr. Bach Hung Nguyen, chefsingenjör på Microsoft, bekräftade också VMLU:s användbarhet för att utvärdera prestandan hos LLM-modeller på vietnamesiska, vilket hjälper utvecklingsenheter att bättre förstå modellens funktioner. Dessutom förväntar sig Dr. Bach Hung Nguyen att VMLU kommer att lägga till en uppsättning användbara färdigheter som resonemang, kodgenerering och textsammanfattning.

Ny version av VMLU syftar till att fullända högre LLM-modeller

Nyligen fortsätter VMLU att presentera en ny uppsättning standarder som utvärderar resonemangs- och interaktionsförmågan hos en LLM. Den utökade uppsättningen standarder utvärderar tre kärnfärdigheter hos en modern LLM, inklusive:

Läsförståelse (ViSQuAD) : 3 310 frågor bedömer förmågan att förstå text på djupet och hantera komplexa frågor baserat på det vietnamesiska språkets och kontextens specifika egenskaper.

Resonemang (ViDrop) : 3 090 frågor utmanar LLM:s logiska resonemangsförmåga genom uppgifter som jämförelse, räkning och aritmetiska beräkningar.

Interaktion (ViDialog) : 210 dialoger bedömer koherens, förmåga att förstå sammanhang och tillämpa tvärvetenskaplig kunskap (historia, geografi, logik) i dialog.

Denna uppgradering hjälper inte bara utvecklare att utvärdera modeller mer omfattande, utan främjar också LLM för att skapa användbara värden för slutanvändare.

VMLU bror 2

Nya VMLU-standarder kommer att släppas 2025.

Dr. Chau Thanh Duc, chef för forskning och utveckling inom artificiell intelligens på Zalo AI – organisationen som utvecklade VMLU, sa: ”Det finns för närvarande hundratals olika standarder i världen för att utvärdera kapaciteten hos stora språkmodeller. Antalet bedömningsstandarder specifikt för vietnamesiska är dock mycket begränsat. Med lanseringen av standarderna 2023 och 2025 hoppas vi kunna diversifiera bedömningsaspekterna.”

Den nya uppsättningen standarder har lanserats på VMLU:s webbplats https://vmlu.ai/ för att individer och forskargrupper ska kunna utvärdera sina modeller.

VMLU-broder 3

Den nya uppsättningen standarder har uppdaterats på VMLU:s webbplats.

VMLU är en plattform för att utvärdera och rangordna vietnamesiska LLM-modeller, byggda av Zalo AI i samarbete med Japan Advanced Institute of Science and Technology (JAIST) och tillhandahållna kostnadsfritt till gemenskapen från november 2023. I syfte att stödja den vietnamesiska AI-gemenskapen bidrar VMLU till att främja det vietnamesiska folkets förmåga att bemästra ny teknik. Därigenom bidrar de till landets tekniska utvecklingsera med en banbrytande inriktning på vetenskap, teknologi, innovation och nationell digital transformation.

Källa: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html