A mesterséges intelligencia modellekhez olyan szabványokra van szükség, amelyek mélyrehatóan értékelik az összetett képességeket

A VMLU (Learning, Assessment and Ranking Platform for Vietnamese Language LLMs) 2024-es fejlesztési állapotjelentése (LLM) a vietnami nyelvre fókuszáló LLM-ek számának meredek növekedését mutatta. Konkrétan a VMLU platform 45 LLM-et tett közzé a rangsorban, több mint 155 szervezettől és magánszemélytől kapott értékelési kérelmet, és 2024-ben 691 letöltést foglalt össze az értékelési kritériumokról és 3729 LLM-értékelésről a platformon.

Számos hazai és külföldi szervezet használja a VMLU-t, mint például a VinBigData, a VNPT AI, a Viettel Solutions, a Műszaki Egyetem - VNU-HCM, az UONLP x Ontocord - Oregoni Egyetem (USA), a DAMO Akadémia - Alibaba Group, az SDSRV csapatok - Samsung...

VMLU Angol 1

A VMLU 2023-ban indítja el első LLM értékelési kritériumrendszerét.

A mennyiségi növekedéssel párhuzamosan az LLM modellek minősége is egyre javul. Míg a múltban az LLM-eket alapvető ismeretek elsajátítására képezték, ma már a fejlesztők olyan készségek fejlesztésére összpontosítanak, mint az olvasásértés, a párbeszéd vagy az emberszerű gondolkodás.

A fejlett vietnami LLM modellek egyre erőteljesebb fejlődésére reagálva a VMLU új szabványkészleteket tett közzé a modellek komplex képességeinek további értékelésére.

Az LLM kiválóságát elősegítő szabványok

Korábban, amikor a piacon hiányoztak a minőségi szabványok, sok hazai kutatócsoportnak saját belső értékelési eszközöket kellett kidolgoznia a saját szabványai alapján. Ez korlátozta az értékelést, valamint a modellminőség összehasonlítását a piacon lévő LLM-ekkel, hogy megfelelő képzési stratégiák álljanak rendelkezésre.

A probléma megoldása érdekében 2023 novemberében egy vezető vietnami szakértőkből álló csapat kutatta fel a VMLU-t – az első közös „Make in Vietnam” szabványcsomagot –, és ingyenesen bocsátotta a közösség rendelkezésére.

A 58 témát lefedő, több szintre osztott, 10 880 feleletválasztós kérdésből álló standard készlet segített a fejlesztőknek könnyen hozzáférni az általános értékelési adatkészletekhez. Ugyanakkor kihasználhatják a VMLU rangsorolását, hogy közvetlenül összehasonlíthassák modelljeiket a piacon lévő LLM-ekkel.

Dr. Dang Tran Thai, a VinBigData Virtual Assistant Technology Block természetes nyelvi feldolgozási osztályának vezetője, akinek a ViGPT-1.6B-v1 modellje a VMLU nulláról induló modellek (a nulláról betanított LLM) rangsorában szerepel, elmondta: „A VMLU viszonylag teljes és átfogó adatokkal rendelkezik a vietnami nyelvű LLM tudáskapacitásának értékeléséhez. A VMLU nemcsak az LLM minőségének értékelésére hasznos az egyes fejlesztési szakaszokban, hanem a kísérleteink hatékonyságának mérésére is a betanítási folyamat során.”

„Ez egyfajta »ugródeszka« lesz az MI, és különösen az LLM fejlesztésének előmozdításához, mivel jó szabványokkal kell rendelkeznünk, hogy legyen alapunk a kiváló minőségű modellek képzéséhez” – tette hozzá Dr. Dang Tran Thai.

A Microsoft vezető mérnöke, Dr. Bach Hung Nguyen szintén megerősítette a VMLU hasznosságát a vietnami nyelvű LLM modellek teljesítményének értékelésében, segítve a fejlesztőegységeket a modell képességeinek jobb megértésében. Dr. Bach Hung Nguyen emellett arra is számít, hogy a VMLU hasznos készségeket is elsajátít, mint például az érvelés, a kódgenerálás és a szövegösszefoglaló.

A VMLU új verziója a magasabb rendű LLM modellek tökéletesítésére törekszik

A VMLU a közelmúltban folyamatosan új szabványokat jelentett be, amelyek az LLM (jogi mesterképzés) érvelési és interakciós képességeit mérik fel. A kibővített szabványok a modern LLM 3 alapvető készségét mérik fel, beleértve:

Olvasásértés (ViSQuAD) : 3310 kérdés méri a szöveg mélyreható megértését és az összetett kérdések kezelését a vietnami nyelv és kontextus sajátosságai alapján.

Érvelés (ViDrop) : 3090 kérdés teszteli az LLM logikai gondolkodási képességeit olyan feladatokon keresztül, mint az összehasonlítás, a számolás és a számtani számítások.

Interakció (ViDialog) : 210 párbeszéd méri fel a koherenciát, a kontextus megértésének képességét és a multidiszciplináris ismeretek (történelem, földrajz, logika) alkalmazásának képességét a párbeszédben.

Ez a frissítés nemcsak a fejlesztőket segíti a modellek átfogóbb értékelésében, hanem elősegíti az LLM hasznos értékek teremtését a végfelhasználók számára.

VMLU testvér 2

Új VMLU szabványok megjelenése 2025-ben.

Dr. Chau Thanh Duc, a Zalo AI – a VMLU-t fejlesztő szervezet – mesterséges intelligencia kutatási és fejlesztési igazgatója elmondta: „Jelenleg több száz különböző szabvány létezik a világon a nagy nyelvi modellek kapacitásának értékelésére. A kifejezetten vietnami nyelvre vonatkozó értékelési szabványok száma azonban nagyon korlátozott. A szabványok 2023-as és 2025-ös bevezetésével reméljük, hogy diverzifikálni tudjuk az értékelési szempontokat.”

Az új szabványkészletet közzétették a VMLU weboldalán (https://vmlu.ai/), hogy egyének és kutatócsoportok értékelhessék modelljeiket.

VMLU testvér 3

Az új szabványkészlet frissült a VMLU weboldalán.

A VMLU egy platform a Zalo AI és a Japán Fejlett Tudományos és Technológiai Intézet (JAIST) által közösen létrehozott vietnami LLM modellek értékelésére és rangsorolására, amelyeket 2023 novemberétől ingyenesen biztosítanak a közösség számára. A vietnami MI-közösség támogatására irányuló törekvéseivel a VMLU hozzájárul a vietnami emberek új technológiák elsajátítására való képességének előmozdításához. Ezáltal áttörést jelentő orientációval járul hozzá az ország technológiai fejlődéséhez a tudomány, a technológia, az innováció és a nemzeti digitális átalakulás területén.

Forrás: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html

Hozzászólás (0)

Legnépszerűbb

Legújabb

No data

[Fotó] Pham Minh Chinh miniszterelnök csúcsteljesítményű kampányt indított a 14. Nemzeti Pártkongresszus megünneplése alkalmából elért eredmények érdekében.

Ugyanebben a kategóriában

Áttörés az 57. számú határozat értelmében: Jelentős beruházások a digitális infrastruktúrába

VietnamPlus

5 giờ trước

Tuyen Quang: Számos tevékenység a digitális átalakulás közösségi terjesztésére és előmozdítására

Báo Văn Hóa

5 giờ trước

Hirtelen elfogyott az 1,7 millió darabos iPhone szíj

ZNews

7 giờ trước

Heti hírek: iPhone Air árcsökkenés, Galaxy S26 Ultra bemutatása

Báo Dân trí

7 giờ trước

Friss, biztonságos hely az Acerpure prémium légtisztítóval

ZNews

8 giờ trước

Egy kevéssé ismert cég virágzik a mesterséges intelligencia segítségével

ZNews

8 giờ trước

A nyugati turisták előszeretettel vásárolnak őszi középfesztiválra való játékokat a Hang Ma utcában, hogy megajándékozzák gyermekeiknek és unokáiknak.