AI-modellen hebben een reeks normen nodig die complexe mogelijkheden diepgaand beoordelen

Het Development Status Report (LLM) van het VMLU (Learning, Assessment and Ranking Platform voor Vietnamese taal-LLM's) van 2024 laat een sterke stijging zien in het aantal LLM's dat zich richt op het Vietnamees. Het VMLU-platform heeft 45 LLM's op de ranglijst gepubliceerd, evaluatieverzoeken ontvangen van meer dan 155 organisaties en personen, en 691 downloads van de evaluatiecriteria en 3729 LLM-evaluaties van het platform samengevat in 2024.

Veel binnen- en buitenlandse organisaties maken gebruik van VMLU, zoals VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (VS), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

VMLU Engels 1

De VMLU zal in 2023 de eerste reeks LLM-beoordelingscriteria lanceren.

Naast de toenemende kwantiteit verbetert ook de kwaliteit van LLM-modellen steeds verder. Waar LLM's vroeger werden opgeleid met basiskennis, richten ontwikkelaars zich nu op het uitbreiden van vaardigheden zoals leesbegrip, gespreksvaardigheid of menselijk redeneren.

Als reactie op de steeds sterkere ontwikkeling van geavanceerde Vietnamese LLM-modellen heeft VMLU nieuwe sets normen gepubliceerd om de complexe mogelijkheden van de modellen verder te beoordelen.

Normen die LLM-excellentie bevorderen

Vroeger, toen de markt geen kwaliteitsnormen kende, moesten veel binnenlandse onderzoeksgroepen hun eigen interne beoordelingsinstrumenten ontwikkelen met hun eigen standaarden. Dit beperkte de evaluatie en de vergelijking van de modelkwaliteit met bestaande LLM's op de markt om passende trainingsstrategieën te ontwikkelen.

Om dit probleem op te lossen, werd in november 2023 de eerste reeks gemeenschappelijke "Make in Vietnam"-normen, VMLU, onderzocht door een team van vooraanstaande Vietnamese experts en gratis ter beschikking gesteld aan de Vietnamese gemeenschap.

De standaardset van 10.880 meerkeuzevragen, verdeeld over 58 onderwerpen en verdeeld over diverse niveaus, heeft ontwikkelaars geholpen om eenvoudig toegang te krijgen tot algemene beoordelingsdatasets. Tegelijkertijd kunt u profiteren van de ranglijsten van VMLU om hun modellen direct te vergelijken met bestaande LLM's op de markt.

Dr. Dang Tran Thai, hoofd van de afdeling Natural Language Processing - VinBigData Virtual Assistant Technology Block, wiens ViGPT-1.6B-v1-model tot de top behoort van de 'from scratch'-modellen (LLM's die vanaf nul zijn opgeleid) van VMLU, zei: "VMLU beschikt over relatief complete en uitgebreide gegevens om de kenniscapaciteit van LLM voor Vietnamezen te evalueren. VMLU is niet alleen nuttig om de kwaliteit van LLM in elke ontwikkelingsfase te evalueren, maar ook om de effectiviteit van onze experimenten tijdens het trainingsproces te meten."

"Dit zal een 'springplank' zijn om de ontwikkeling van AI in het algemeen en LLM in het bijzonder te bevorderen, omdat we goede normen moeten hebben zodat we een basis hebben om hoogwaardige modellen te trainen", voegde Dr. Dang Tran Thai toe.

Hoofdingenieur bij Microsoft - Dr. Bach Hung Nguyen bevestigde eveneens het nut van VMLU bij het evalueren van de prestaties van LLM-modellen in het Vietnamees, wat ontwikkelingsafdelingen helpt de mogelijkheden van het model beter te begrijpen. Daarnaast verwacht Dr. Bach Hung Nguyen dat VMLU een reeks nuttige vaardigheden zal toevoegen, zoals redeneren, codegeneratie en tekstsamenvatting.

Nieuwe versie van VMLU wil hogere-orde LLM-modellen perfectioneren

Onlangs heeft de VMLU een nieuwe reeks standaarden aangekondigd die de redeneer- en interactievaardigheden van een LLM beoordelen. De uitgebreide reeks standaarden beoordeelt drie kernvaardigheden van een moderne LLM, waaronder:

Leesbegrip (ViSQuAD) : 3.310 vragen beoordelen het vermogen om een tekst diepgaand te begrijpen en complexe vragen te beantwoorden op basis van de specifieke kenmerken van de Vietnamese taal en context.

Redeneren (ViDrop) : 3.090 vragen dagen het logisch redeneervermogen van de LLM uit door middel van taken zoals vergelijken, tellen en rekenkundige berekeningen.

Interactie (ViDialog) : 210 dialogen beoordelen de samenhang, het vermogen om context te begrijpen en multidisciplinaire kennis (geschiedenis, geografie, logica) toe te passen in dialogen.

Dankzij deze upgrade kunnen ontwikkelaars niet alleen modellen uitgebreider evalueren, maar wordt LLM ook gestimuleerd om bruikbare waarden voor eindgebruikers te creëren.

VMLU broer 2

Nieuwe VMLU-normen worden in 2025 vrijgegeven.

Dr. Chau Thanh Duc, directeur Artificial Intelligence Research & Development bij Zalo AI, de organisatie die VMLU heeft ontwikkeld, zei: "Er zijn momenteel honderden verschillende standaarden wereldwijd om de capaciteit van grote taalmodellen te evalueren. Het aantal beoordelingsstandaarden specifiek voor het Vietnamees is echter zeer beperkt. Met de lancering van de standaarden in 2023 en 2025 hopen we de beoordelingsaspecten te diversifiëren."

De nieuwe reeks normen is gelanceerd op de VMLU-website https://vmlu.ai/ zodat individuen en onderzoeksgroepen hun modellen kunnen evalueren.

VMLU broer 3

De nieuwe normen zijn bijgewerkt op de VMLU-website.

VMLU is een platform voor het evalueren en rangschikken van Vietnamese LLM-modellen, ontwikkeld door Zalo AI in samenwerking met het Japan Advanced Institute of Science and Technology (JAIST) en vanaf november 2023 gratis beschikbaar gesteld aan de community. Door de Vietnamese AI-gemeenschap te ondersteunen, draagt VMLU bij aan het bevorderen van het vermogen van de Vietnamese bevolking om nieuwe technologieën te beheersen. Daarmee draagt het bij aan het technologische ontwikkelingstijdperk van het land met een baanbrekende oriëntatie op wetenschap, technologie, innovatie en nationale digitale transformatie.

Bron: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html