Modele sztucznej inteligencji potrzebują zestawu standardów, które dogłębnie oceniają złożone możliwości

Raport o stanie rozwoju (LLM) VMLU (Platformy Nauki, Oceny i Rankingu Studiów LLM z Języka Wietnamskiego) z 2024 roku wykazał gwałtowny wzrost liczby studiów LLM z językiem wietnamskim. Platforma VMLU opublikowała 45 studiów LLM w rankingach, otrzymała prośby o ocenę od ponad 155 organizacji i osób prywatnych oraz podsumowała 691 pobrań kryteriów oceny i 3729 ocen LLM z platformy w 2024 roku.

Z platformy VMLU korzysta wiele organizacji krajowych i zagranicznych, m.in. VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, zespoły SDSRV - Samsung...

VMLU Angielski 1

VMLU uruchomi pierwszy zestaw kryteriów oceny LLM w 2023 roku.

Wraz ze wzrostem liczby modeli LLM, ich jakość również ulega coraz większej poprawie. O ile w przeszłości LLM-y były szkolone wokół podstawowej wiedzy, o tyle teraz programiści koncentrują się na rozwijaniu większej liczby umiejętności, takich jak rozumienie tekstu pisanego, prowadzenie konwersacji czy rozumowanie zbliżone do ludzkiego.

W odpowiedzi na coraz intensywniejszy rozwój zaawansowanych wietnamskich modeli LLM, VMLU opublikowało nowe zestawy standardów, które mają na celu dalszą ocenę złożonych możliwości tych modeli.

Standardy promujące doskonałość LLM

Wcześniej, gdy na rynku brakowało standardów jakości, wiele krajowych grup badawczych musiało tworzyć własne, wewnętrzne narzędzia oceny z własnymi standardami. Ograniczało to możliwość oceny i porównania jakości modelu z istniejącymi na rynku modelami LLM, co utrudniało opracowanie odpowiednich strategii szkoleniowych.

Aby rozwiązać ten problem, w listopadzie 2023 r. zespół czołowych wietnamskich ekspertów przeprowadził badania VMLU – pierwszego zestawu wspólnych standardów „Make in Vietnam” – i udostępnił go społeczności bezpłatnie.

Standardowy zestaw 10 880 pytań wielokrotnego wyboru, obejmujący 58 tematów i podzielony na wiele poziomów, ułatwił programistom dostęp do ogólnych zbiorów danych oceniających. Jednocześnie warto skorzystać z rankingów VMLU, aby bezpośrednio porównać ich modele z istniejącymi modelami LLM dostępnymi na rynku.

Dr Dang Tran Thai, kierownik Działu Przetwarzania Języka Naturalnego w Bloku Technologii Asystentów Wirtualnych VinBigData, którego model ViGPT-1.6B-v1 znajduje się w rankingu modeli „od zera” (LLM trenowanych od podstaw) VMLU, powiedział: „VMLU dysponuje stosunkowo kompletnymi i kompleksowymi danymi do oceny poziomu wiedzy LLM dla Wietnamczyków. VMLU jest nie tylko przydatny do oceny jakości LLM na każdym etapie rozwoju, ale także do pomiaru skuteczności naszych eksperymentów w procesie szkolenia”.

„Będzie to swoista trampolina do promowania rozwoju sztucznej inteligencji w ogóle, a w szczególności studiów magisterskich z prawa (LLM), ponieważ musimy mieć dobre standardy, które dadzą nam podstawę do trenowania wysokiej jakości modeli” – dodał dr Dang Tran Thai.

Główny inżynier w firmie Microsoft, dr Bach Hung Nguyen, potwierdził również przydatność VMLU w ocenie wydajności modeli LLM w języku wietnamskim, pomagając działom rozwoju lepiej zrozumieć możliwości modelu. Ponadto dr Bach Hung Nguyen oczekuje, że VMLU wzbogaci program o zestaw przydatnych umiejętności, takich jak rozumowanie, generowanie kodu i streszczanie tekstu.

Nowa wersja VMLU ma na celu udoskonalenie modeli LLM wyższego rzędu

Niedawno VMLU ogłosiło nowy zestaw standardów, oceniający zdolności logicznego myślenia i interakcji absolwentów studiów prawniczych (LLM). Rozszerzony zestaw standardów ocenia 3 podstawowe umiejętności nowoczesnego absolwenta studiów prawniczych (LLM), w tym:

Czytanie ze zrozumieniem (ViSQuAD) : 3310 pytań oceniających umiejętność dogłębnego zrozumienia tekstu i radzenia sobie ze złożonymi pytaniami w oparciu o specyficzne cechy języka wietnamskiego i kontekstu.

Rozumowanie (ViDrop) : 3090 pytań sprawdzających umiejętności logicznego rozumowania kandydatów na studia LLM poprzez zadania takie jak porównywanie, liczenie i obliczenia arytmetyczne.

Interakcja (ViDialog) : 210 dialogów ocenia spójność, umiejętność rozumienia kontekstu i stosowania wiedzy interdyscyplinarnej (historia, geografia, logika) w dialogu.

Ta aktualizacja nie tylko pomaga deweloperom w bardziej kompleksowej ocenie modeli, ale także promuje LLM w tworzeniu użytecznych wartości dla użytkowników końcowych.

Brat VMLU 2

Nowe standardy VMLU zostaną opublikowane w 2025 r.

Dr Chau Thanh Duc, dyrektor ds. badań i rozwoju sztucznej inteligencji w Zalo AI – organizacji, która stworzyła VMLU – powiedział: „Obecnie na świecie istnieją setki różnych standardów oceny wydajności dużych modeli językowych. Jednak liczba standardów oceny specjalnie dla języka wietnamskiego jest bardzo ograniczona. Wraz z wprowadzeniem standardów w latach 2023 i 2025 mamy nadzieję na zróżnicowanie aspektów oceny”.

Nowy zestaw standardów opublikowano na stronie internetowej VMLU https://vmlu.ai/, aby osoby prywatne i grupy badawcze mogły oceniać swoje modele.

Brat VMLU 3

Nowy zestaw norm został zaktualizowany na stronie internetowej VMLU.

VMLU to platforma do oceny i rankingu wietnamskich modeli LLM, opracowana przez Zalo AI we współpracy z Japońskim Instytutem Zaawansowanej Nauki i Technologii (JAIST) i udostępniana społeczności bezpłatnie od listopada 2023 roku. Wspierając wietnamską społeczność AI, VMLU przyczynia się do promowania umiejętności Wietnamczyków w zakresie opanowywania nowych technologii. W ten sposób przyczynia się do rozwoju technologicznego kraju, koncentrując się na przełomie w nauce, technologii, innowacjach i cyfrowej transformacji kraju.

Source: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html