Anunțarea criteriilor de evaluare pentru raționament și interacțiune pentru LLM-ul vietnamez

Introdus pentru prima dată în 2023, VMLU (Vietnamese Multitask Language Understanding - Înțelegerea Limbii Multifuncționale Vietnameze) a devenit un set de standarde inovator „Made in Vietnam”, motivând multe grupuri de cercetare interne să îmbunătățească calitatea modelelor lingvistice mari (LLM) vietnameze.

Conform statisticilor, în 2024, VMLU a anunțat 45 de diplome de masterat în drept (LLM) în clasament, a primit solicitări de evaluare de la peste 155 de organizații și persoane fizice, a sintetizat 691 de descărcări ale setului de criterii de evaluare și 3.729 de evaluări LLM de pe platformă. Standardele stabilite sunt utilizate de numeroase organizații interne și străine, precum VinBigData, VNPT AI, Viettel Solutions, Universitatea de Știință și Tehnologie - VNU-HCM, UONLP x Ontocord - Universitatea din Oregon (SUA), DAMO Academy - Alibaba Group, echipele SDSRV - Samsung...

Zalo AI și Institutul JAIST lansează o nouă versiune a VMLU.

Pe măsură ce modelele de inteligență artificială devin din ce în ce mai inteligente, VMLU a fost modernizat pentru a evalua competențe mai complexe. Mai exact, setul extins de standarde evaluează trei abilități de bază ale unui LLM modern, inclusiv:

Înțelegerea textului citit (ViSQuAD): 3.310 întrebări evaluează capacitatea de a înțelege textul în profunzime și de a răspunde la întrebări complexe bazate pe caracteristicile specifice ale limbii și contextului vietnamez.

Raționament (ViDrop): 3.090 de întrebări pun la încercare abilitățile de raționament logic ale LLM prin sarcini precum compararea, numărarea și calculele aritmetice.

Interacțiune (ViDialog): 210 dialoguri evaluează coerența, înțelegerea contextuală și aplicarea cunoștințelor multidisciplinare (istorie, geografie, logică) în dialog.

Punctul culminant al noului set de standarde este metoda avansată de evaluare, care combină o varietate de forme, de la întrebări deschise cu variante multiple de răspuns, până la cerințe de raționament pas cu pas. În special, VMLU aplică metoda „LLM ca judecător” (folosind LLM pentru a evalua LLM) - o tendință aplicată de comunitatea globală de inteligență artificială pentru a obține rezultate mai obiective și la scară largă.

Cu 10.880 de întrebări cu variante multiple de răspuns, care acoperă 58 de subiecte, împărțite pe mai multe niveluri, versiunea din 2023 s-a concentrat pe evaluarea cunoștințelor fundamentale ale LLM. Între timp, noul set de standarde merge cu un pas mai departe, măsurând capacitatea de raționament și interacțiune a LLM în contexte din viața reală . Această actualizare nu numai că ajută dezvoltatorii să evalueze modelele mai cuprinzător, dar promovează și LLM pentru a crea valori utile pentru utilizatorii finali.

Setul extins de criterii evaluează cele trei abilități de bază ale unui LLM modern.

„În prezent, există sute de teste de evaluare diferite în lume pentru a evalua capacitățile modelelor lingvistice mari. Cu toate acestea, numărul de teste de evaluare specifice pentru limba vietnameză este foarte limitat. Odată cu lansarea testelor de evaluare în 2023 și 2025, sperăm să diversificăm aspectele de evaluare”, a declarat Dr. Chau Thanh Duc, director de cercetare și dezvoltare în domeniul inteligenței artificiale la Zalo AI.

Noul set de standarde a fost lansat pe site-ul VMLU https://vmlu.ai/ pentru ca indivizii și grupurile de cercetare să își poată evalua modelele.

Noul set de standarde a fost lansat pe site-ul VMLU.

Cu cooperarea experților de top de la Zalo AI și JAIST Institute, VMLU va continua să cerceteze și să dezvolte standarde de evaluare mai diverse în ceea ce privește domeniile și dificultatea. În viitor, VMLU își propune, de asemenea, să dezvolte standarde de evaluare a siguranței și integrității, asigurându-se că modelele LLM sunt dezvoltate în mod responsabil.

Sursă: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html

Comentariu (0)

Cele mai populare

Cele mai noi

No data

[Foto] Festivalul animat de la mijlocul toamnei la Muzeul de Etnologie

În aceeași categorie

Experimentează online Festivalul de la Mijlocul Toamnei „Festivalul Lunii Pline”

Báo Văn Hóa

10 giờ trước

Ha Tinh: 100% din unitățile medicale utilizează dosare medicale electronice

Tạp chí Doanh Nghiệp

11 giờ trước

Acerpure Aqua - purificator de apă convenabil, gata în fiecare moment

ZNews

13 giờ trước

iPhone-ul va fi „transformat” anul viitor

ZNews

14 giờ trước

Profesorul Tran Thanh Van și soția sa au primit Legiunea de Onoare ca ofițeri.

Tạp chí Doanh Nghiệp

15 giờ trước

Controversa Apple

ZNews

16 giờ trước

Turiștii occidentali se bucură să cumpere jucării de la Festivalul de la Mijlocul Toamnei pe strada Hang Ma pentru a le oferi copiilor și nepoților lor.