Ogłaszamy kryteria oceny zdolności rozumowania i interakcji na studiach LLM w języku wietnamskim

Wprowadzony po raz pierwszy w 2023 r. standard VMLU (Vietnamese Multitask Language Understanding) stał się pionierskim zestawem standardów „Make in Vietnam”, motywując wiele krajowych grup badawczych do podnoszenia jakości wietnamskich modeli dużych języków (LLM).

Według statystyk, w 2024 roku VMLU ogłosiło 45 programów LLM w rankingu, otrzymało prośby o ocenę od ponad 155 organizacji i osób prywatnych, podsumowało 691 pobrań zestawu kryteriów oceny i 3729 ocen programów LLM z platformy. Zestaw standardów jest wykorzystywany przez wiele krajowych i zagranicznych organizacji, takich jak VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology – VNU-HCM, UONLP x Ontocord – University of Oregon (USA), DAMO Academy – Alibaba Group, SDSRV teams – Samsung...

Zalo AI i JAIST Institute przedstawiają nową wersję VMLU.

Wraz ze wzrostem inteligencji modeli sztucznej inteligencji, VMLU został udoskonalony, aby oceniać bardziej złożone kompetencje. Rozszerzony zestaw standardów ocenia trzy podstawowe umiejętności nowoczesnego LLM, w tym:

Czytanie ze zrozumieniem (ViSQuAD): 3310 pytań oceniających umiejętność dogłębnego zrozumienia tekstu i radzenia sobie ze złożonymi pytaniami w oparciu o specyficzne cechy języka wietnamskiego i kontekstu.

Rozumowanie (ViDrop): 3090 pytań sprawdzających umiejętności logicznego rozumowania kandydatów na studia LLM poprzez zadania takie jak porównywanie, liczenie i obliczenia arytmetyczne.

Interakcja (ViDialog): 210 dialogów ocenia spójność, zrozumienie kontekstu i zastosowanie wiedzy interdyscyplinarnej (historia, geografia, logika) w dialogu.

Najważniejszym elementem nowego zestawu standardów jest zaawansowana metoda oceny, łącząca różnorodne formy, od pytań wielokrotnego wyboru, pytań otwartych, po wymagania dotyczące rozumowania krok po kroku. W szczególności VMLU stosuje metodę „LLM jako sędzia” (wykorzystując LLM do oceny LLM) – trend wdrażany przez globalną społeczność AI w celu osiągnięcia bardziej obiektywnych i szeroko zakrojonych wyników.

Wersja z 2023 roku, zawierająca 10 880 pytań wielokrotnego wyboru, obejmujących 58 tematów i podzielonych na wiele poziomów, koncentrowała się na ocenie podstawowej wiedzy z zakresu LLM. Tymczasem nowy zestaw standardów idzie o krok dalej, mierząc zdolność rozumowania i interakcji LLM w rzeczywistych kontekstach . Ta aktualizacja nie tylko pomaga programistom w bardziej kompleksowej ocenie modeli, ale także promuje LLM w tworzeniu wartości użytecznych dla użytkowników końcowych.

Rozszerzony zestaw kryteriów ocenia trzy podstawowe umiejętności nowoczesnego absolwenta studiów LLM.

„Obecnie na świecie istnieją setki różnych testów porównawczych do oceny możliwości dużych modeli językowych. Jednak liczba testów specjalnie dla języka wietnamskiego jest bardzo ograniczona. Wraz z uruchomieniem testów porównawczych w latach 2023 i 2025 mamy nadzieję na zróżnicowanie aspektów oceny” – powiedział dr Chau Thanh Duc, dyrektor ds. badań i rozwoju sztucznej inteligencji w Zalo AI.

Nowy zestaw standardów opublikowano na stronie internetowej VMLU https://vmlu.ai/, aby osoby prywatne i grupy badawcze mogły oceniać swoje modele.

Nowy zestaw standardów opublikowano na stronie internetowej VMLU.

Dzięki współpracy wiodących ekspertów z Zalo AI i Instytutu JAIST, VMLU będzie kontynuować badania i rozwijać bardziej zróżnicowane standardy oceny pod względem dziedzin i stopnia trudności. W przyszłości VMLU zamierza również opracować standardy oceny bezpieczeństwa i integralności, zapewniając odpowiedzialne opracowywanie modeli LLM.

Source: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html