A vietnami LLM érvelési és interakciós értékelési kritériumainak bejelentése

A 2023-ban először bevezetett VMLU (Vietnamese Multitask Language Understanding) úttörő „Make in Vietnam” szabványkészletté vált, amely számos hazai kutatócsoportot motivált a vietnami nagynyelvi modellek (LLM) minőségének javítására.

A statisztikák szerint 2024-ben a VMLU 45 LLM-et jelentett be a rangsorban, több mint 155 szervezettől és magánszemélytől kapott értékelési kérelmet, 691 letöltést összegzett az értékelési kritériumrendszerből és 3729 LLM-értékelést a platformról. A meghatározott szabványokat számos hazai és külföldi szervezet használja, mint például a VinBigData, a VNPT AI, a Viettel Solutions, a Tudományos és Technológiai Egyetem - VNU-HCM, az UONLP x Ontocord - Oregoni Egyetem (USA), a DAMO Akadémia - Alibaba Group, az SDSRV csapatok - Samsung...

A Zalo AI és a JAIST Intézet bemutatja a VMLU új verzióját.

Ahogy a mesterséges intelligencia modelljei egyre intelligensebbek lesznek, a VMLU-t továbbfejlesztették, hogy összetettebb kompetenciákat is fel tudjon mérni. A kibővített szabványok konkrétan a modern LLM három alapvető készségét mérik fel, beleértve:

Olvasásértés (ViSQuAD): 3310 kérdés méri fel a szöveg mélyreható megértésének és az összetett kérdések kezelésének képességét a vietnami nyelv és kontextus sajátosságai alapján.

Érvelés (ViDrop): 3090 kérdés próbára teszi az LLM logikai gondolkodási képességeit olyan feladatokon keresztül, mint az összehasonlítás, a számolás és a számtani számítások.

Interakció (ViDialog): 210 párbeszéd méri fel a koherenciát, a kontextuális megértést és a multidiszciplináris ismeretek (történelem, földrajz, logika) alkalmazását a párbeszédben.

Az új szabványrendszer csúcspontja a fejlett értékelési módszer, amely a feleletválasztós, nyitott kérdésektől a lépésről lépésre történő érvelési követelményekig számos formát ötvöz. A VMLU különösen az „LLM mint bíró” módszert alkalmazza (LLM használatával értékeli az LLM-et) – ezt a trendet a globális mesterséges intelligencia közösség egyre inkább alkalmazza az objektívebb és szélesebb körű eredmények elérése érdekében.

A 2023-as verzió 10 880 feleletválasztós kérdéssel, amelyek 58 témát fednek le és több szintre vannak osztva, az LLM alapvető ismereteinek felmérésére összpontosított. Eközben az új szabványok egy lépéssel tovább mennek, és az LLM érvelési és interakciós képességét mérik valós helyzetekben . Ez a frissítés nemcsak a fejlesztőket segíti a modellek átfogóbb értékelésében, hanem elősegíti, hogy az LLM hasznos értékeket teremtsen a végfelhasználók számára.

A kibővített kritériumrendszer a modern LLM három alapvető készségét méri fel.

„Jelenleg világszerte több száz különböző benchmark létezik a nagy nyelvi modellek képességeinek értékelésére. A kifejezetten vietnami nyelvre vonatkozó benchmarkok száma azonban nagyon korlátozott. A 2023-as és 2025-ös benchmarkok bevezetésével reméljük, hogy diverzifikálni tudjuk az értékelési szempontokat” – mondta Dr. Chau Thanh Duc, a Zalo AI mesterséges intelligencia kutatási és fejlesztési igazgatója.

Az új szabványkészletet közzétették a VMLU weboldalán (https://vmlu.ai/), hogy egyének és kutatócsoportok értékelhessék modelljeiket.

Az új szabványkészletet közzétették a VMLU weboldalán.

A Zalo AI és a JAIST Intézet vezető szakértőinek együttműködésével a VMLU továbbra is kutatja és fejleszti a szakterületek és nehézségi szintek tekintetében változatosabb értékelési szabványokat. A jövőben a VMLU célja a biztonsági és integritási értékelési szabványok kidolgozása is, biztosítva az LLM modellek felelősségteljes fejlesztését.

Forrás: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html