Модели ИИ нуждаются в наборе стандартов, которые глубоко оценивают сложные возможности

Отчёт о состоянии развития VMLU (платформы обучения, оценки и ранжирования LLM для вьетнамских студентов LLM) за 2024 год показал резкий рост числа LLM, специализирующихся на вьетнамском языке. В частности, платформа VMLU опубликовала 45 LLM в рейтинге, получила запросы на оценку от более чем 155 организаций и частных лиц, а также обобщила 691 загрузку критериев оценки и 3729 оценок LLM с платформы в 2024 году.

Многие отечественные и зарубежные организации используют VMLU, такие как VinBigData, VNPT AI, Viettel Solutions, Технологический университет - VNU-HCM, UONLP x Ontocord - Университет Орегона (США), DAMO Academy - Alibaba Group, команды SDSRV - Samsung...

ВМЛУ Английский 1

VMLU представит свой первый набор критериев оценки LLM в 2023 году.

Наряду с ростом количества моделей LLM качество также постоянно повышается. Если раньше LLM обучались на основе базовых знаний, то теперь разработчики сосредотачиваются на развитии более широких навыков, таких как понимание прочитанного, ведение диалога или мышление, подобное человеческому.

В ответ на все более активное развитие передовых вьетнамских моделей LLM, VMLU опубликовал новые наборы стандартов для дальнейшей оценки сложных возможностей моделей.

Стандарты, способствующие совершенству LLM

Ранее, когда на рынке отсутствовали стандарты качества, многим отечественным исследовательским группам приходилось разрабатывать собственные инструменты оценки, соответствующие их собственным стандартам. Это ограничивало возможности оценки и сравнения качества моделей с существующими на рынке программами магистратуры права (LLM) для разработки адекватных стратегий обучения.

Чтобы решить эту проблему, в ноябре 2023 года группа ведущих вьетнамских экспертов разработала и бесплатно предоставила сообществу VMLU — первый набор единых стандартов «Сделано во Вьетнаме».

Стандартный набор из 10 880 вопросов с несколькими вариантами ответов, охватывающих 58 тем и разделённых на несколько уровней, помог разработчикам легко получить доступ к общим наборам данных для оценки. Кроме того, рейтинги VMLU позволяют напрямую сравнивать свои модели с существующими моделями LLM на рынке.

Доктор Данг Тран Тай, руководитель отдела обработки естественного языка блока технологий виртуального помощника VinBigData, чья модель ViGPT-1.6B-v1 входит в рейтинг моделей VMLU, созданных с нуля (LLM, обученных с нуля), отметил: «VMLU располагает относительно полными и всеобъемлющими данными для оценки объема знаний LLM по вьетнамскому языку. VMLU полезен не только для оценки качества LLM на каждом этапе разработки, но и для измерения эффективности наших экспериментов в процессе обучения».

«Это станет «трамплином» для содействия развитию ИИ в целом и LLM в частности, поскольку нам нужны высокие стандарты, чтобы иметь основу для обучения высококачественных моделей», — добавил доктор Данг Тран Тай.

Ведущий инженер Microsoft д-р Бах Хунг Нгуен также подтвердил полезность VMLU для оценки эффективности моделей LLM на вьетнамском языке, помогая разработчикам лучше понять возможности модели. Кроме того, д-р Бах Хунг Нгуен ожидает, что VMLU добавит ряд полезных навыков, таких как рассуждение, генерация кода и реферирование текста.

Новая версия VMLU направлена на совершенствование моделей LLM более высокого порядка

В последнее время VMLU продолжает анонсировать новый набор стандартов, оценивающих навыки рассуждения и взаимодействия у LLM. Расширенный набор стандартов оценивает три основных навыка современного LLM, включая:

Понимание прочитанного (ViSQuAD) : 3310 вопросов оценивают способность глубоко понимать текст и отвечать на сложные вопросы, исходя из специфических особенностей вьетнамского языка и контекста.

Логическое мышление (ViDrop) : 3090 вопросов проверяют логические способности магистров права с помощью таких заданий, как сравнение, подсчет и арифметические вычисления.

Взаимодействие (ViDialog) : 210 диалогов оценивают связность, способность понимать контекст и применять междисциплинарные знания (историю, географию, логику) в диалоге.

Это обновление не только помогает разработчикам более комплексно оценивать модели, но и способствует созданию LLM полезных значений для конечных пользователей.

ВМЛУ брат 2

Новые стандарты VMLU будут опубликованы в 2025 году.

Доктор Чау Тхань Дык, директор по исследованиям и разработкам в области искусственного интеллекта в Zalo AI — организации, разработавшей VMLU, — отметил: «В настоящее время в мире существуют сотни различных стандартов для оценки возможностей больших языковых моделей. Однако число стандартов оценки, предназначенных специально для вьетнамского языка, весьма ограничено. С запуском стандартов в 2023 и 2025 годах мы надеемся разнообразить аспекты оценки».

Новый набор стандартов опубликован на веб-сайте VMLU https://vmlu.ai/, чтобы отдельные лица и исследовательские группы могли оценить свои модели.

ВМЛУ брат 3

Новый набор стандартов обновлен на веб-сайте VMLU.

VMLU — это платформа для оценки и ранжирования вьетнамских моделей LLM, разработанная Zalo AI совместно с Японским передовым институтом науки и технологий (JAIST) и предоставляемая сообществу бесплатно с ноября 2023 года. Поддерживая вьетнамское сообщество ИИ, VMLU вносит вклад в развитие способности вьетнамского народа осваивать новые технологии. Тем самым, внося вклад в эпоху технологического развития страны, ориентируясь на прорывные направления в науке, технологиях, инновациях и национальной цифровой трансформации.

Источник: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html