Объявление критериев оценки логического мышления и взаимодействия для вьетнамских LLM

Впервые представленный в 2023 году, VMLU (понимание вьетнамского многозадачного языка) стал новаторским набором стандартов «Сделано во Вьетнаме», мотивируя многие отечественные исследовательские группы улучшать качество больших языковых моделей вьетнамского языка (LLM).

Согласно статистике, в 2024 году VMLU включила в рейтинг 45 LLM, получила запросы на оценку от более чем 155 организаций и частных лиц, обобщила 691 загрузку набора критериев оценки и 3729 оценок LLM с платформы. Этот набор стандартов используется многими отечественными и зарубежными организациями, такими как VinBigData, VNPT AI, Viettel Solutions, Университет науки и технологий VNU-HCM, UONLP x Ontocord – Университет Орегона (США), DAMO Academy – Alibaba Group, команды SDSRV – Samsung...

Zalo AI и Институт JAIST представляют новую версию VMLU.

По мере того, как модели искусственного интеллекта становятся всё более интеллектуальными, VMLU был модернизирован для оценки более сложных компетенций. В частности, расширенный набор стандартов оценивает три основных навыка современного магистра права (LLM), включая:

Понимание прочитанного (ViSQuAD): 3310 вопросов оценивают способность глубоко понимать текст и отвечать на сложные вопросы, исходя из специфических особенностей вьетнамского языка и контекста.

Логическое мышление (ViDrop): 3090 вопросов проверяют логические способности магистров права с помощью таких заданий, как сравнение, подсчет и арифметические вычисления.

Взаимодействие (ViDialog): 210 диалогов оценивают связность, контекстное понимание и применение междисциплинарных знаний (история, география, логика) в диалоге.

Отличительной чертой нового набора стандартов является расширенный метод оценки, сочетающий в себе разнообразные формы: от вопросов с несколькими вариантами ответов и открытыми ответами до пошаговых требований к обоснованию. В частности, VMLU применяет метод «LLM как судья» (использование LLM для оценки LLM) — тренд, применяемый мировым сообществом специалистов в области искусственного интеллекта для достижения более объективных и масштабных результатов.

Версия 2023 года, включающая 10 880 вопросов с несколькими вариантами ответов, охватывающих 58 тем и разделенных на несколько уровней, ориентирована на оценку базовых знаний LLM. В то же время, новый набор стандартов идет еще дальше, измеряя способность LLM к рассуждению и взаимодействию в реальных жизненных ситуациях . Это обновление не только помогает разработчикам более комплексно оценивать модели, но и способствует созданию LLM полезных для конечных пользователей результатов.

Расширенный набор критериев оценивает три основных навыка современного магистра права.

«В настоящее время в мире существуют сотни различных бенчмарков для оценки возможностей крупных языковых моделей. Однако число бенчмарков, предназначенных специально для вьетнамского языка, крайне ограничено. С запуском бенчмарков в 2023 и 2025 годах мы надеемся диверсифицировать аспекты оценки», — сказал доктор Чау Тхань Дык, директор по исследованиям и разработкам в области искусственного интеллекта в Zalo AI.

Новый набор стандартов был опубликован на веб-сайте VMLU https://vmlu.ai/, чтобы отдельные лица и исследовательские группы могли оценить свои модели.

Новый набор стандартов опубликован на сайте VMLU.

В сотрудничестве с ведущими экспертами Zalo AI и Института JAIST, VMLU продолжит исследования и разработку более разнообразных стандартов оценки по направлениям и уровню сложности. В будущем VMLU также намерен разработать стандарты оценки безопасности и профессиональной этики, гарантируя ответственное развитие моделей магистратуры (LLM).

Источник: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html