Vietnam.vn - Nền tảng quảng bá Việt Nam

Объявление критериев оценки логического мышления и взаимодействия для вьетнамских LLM

Zalo AI и Японский передовой институт науки и технологий (JAIST) представляют новую версию VMLU, помогающую вьетнамскому сообществу ИИ совершенствовать высокоуровневые модели LLM.

ZNewsZNews01/10/2025

Впервые представленный в 2023 году, VMLU (понимание вьетнамского многозадачного языка) стал новаторским набором стандартов «Сделано во Вьетнаме», мотивируя многие отечественные исследовательские группы улучшать качество больших языковых моделей вьетнамского языка (LLM).

Согласно статистике, в 2024 году VMLU включила в рейтинг 45 LLM, получила запросы на оценку от более чем 155 организаций и частных лиц, обобщила 691 загрузку набора критериев оценки и 3729 оценок LLM с платформы. Этот набор стандартов используется многими отечественными и зарубежными организациями, такими как VinBigData, VNPT AI, Viettel Solutions, Университет науки и технологий VNU-HCM, UONLP x Ontocord – Университет Орегона (США), DAMO Academy – Alibaba Group, команды SDSRV – Samsung...

VMLU anh 1

Zalo AI и Институт JAIST представляют новую версию VMLU.

По мере того, как модели искусственного интеллекта становятся всё более интеллектуальными, VMLU был модернизирован для оценки более сложных компетенций. В частности, расширенный набор стандартов оценивает три основных навыка современного магистра права (LLM), включая:

Понимание прочитанного (ViSQuAD): 3310 вопросов оценивают способность глубоко понимать текст и отвечать на сложные вопросы, исходя из специфических особенностей вьетнамского языка и контекста.

Логическое мышление (ViDrop): 3090 вопросов проверяют логические способности магистров права с помощью таких заданий, как сравнение, подсчет и арифметические вычисления.

Взаимодействие (ViDialog): 210 диалогов оценивают связность, контекстное понимание и применение междисциплинарных знаний (история, география, логика) в диалоге.

Отличительной чертой нового набора стандартов является расширенный метод оценки, сочетающий в себе разнообразные формы: от вопросов с несколькими вариантами ответов и открытыми ответами до пошаговых требований к обоснованию. В частности, VMLU применяет метод «LLM как судья» (использование LLM для оценки LLM) — тренд, применяемый мировым сообществом специалистов в области искусственного интеллекта для достижения более объективных и масштабных результатов.

Версия 2023 года, включающая 10 880 вопросов с несколькими вариантами ответов, охватывающих 58 тем и разделенных на несколько уровней, ориентирована на оценку базовых знаний LLM. В то же время, новый набор стандартов идет еще дальше, измеряя способность LLM к рассуждению и взаимодействию в реальных жизненных ситуациях . Это обновление не только помогает разработчикам более комплексно оценивать модели, но и способствует созданию LLM полезных для конечных пользователей результатов.

VMLU anh 2

Расширенный набор критериев оценивает три основных навыка современного магистра права.

«В настоящее время в мире существуют сотни различных бенчмарков для оценки возможностей крупных языковых моделей. Однако число бенчмарков, предназначенных специально для вьетнамского языка, крайне ограничено. С запуском бенчмарков в 2023 и 2025 годах мы надеемся диверсифицировать аспекты оценки», — сказал доктор Чау Тхань Дык, директор по исследованиям и разработкам в области искусственного интеллекта в Zalo AI.

Новый набор стандартов был опубликован на веб-сайте VMLU https://vmlu.ai/, чтобы отдельные лица и исследовательские группы могли оценить свои модели.

VMLU anh 3

Новый набор стандартов опубликован на сайте VMLU.

В сотрудничестве с ведущими экспертами Zalo AI и Института JAIST, VMLU продолжит исследования и разработку более разнообразных стандартов оценки по направлениям и уровню сложности. В будущем VMLU также намерен разработать стандарты оценки безопасности и профессиональной этики, гарантируя ответственное развитие моделей магистратуры (LLM).

Источник: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html


Комментарий (0)

No data
No data

Та же категория

Посетите рыбацкую деревню Ло-Дьеу в Джиа-Лай и посмотрите, как рыбаки «рисуют» клевер на море.
Слесарь превращает пивные банки в яркие фонарики середины осени
Потратьте миллионы на изучение флористики и обретите объединяющий опыт во время Фестиваля середины осени
В небе Сон Ла есть холм фиолетовых цветов Сим.

Тот же автор

Наследство

;

Фигура

;

Бизнес

;

No videos available

Текущие события

;

Политическая система

;

Местный

;

Продукт

;