Se anuncian los criterios de evaluación del razonamiento y la interacción del LLM vietnamita

Introducido por primera vez en 2023, VMLU (Vietnamese Multitask Language Understanding) se ha convertido en un conjunto de estándares pionero “Hecho en Vietnam”, motivando a muchos grupos de investigación nacionales a mejorar la calidad de los modelos de lenguaje grande (LLM) vietnamitas.

Según las estadísticas, en 2024, VMLU anunció 45 LLM en el ranking, recibió solicitudes de evaluación de más de 155 organizaciones e individuos, registró 691 descargas del conjunto de criterios de evaluación y 3729 evaluaciones de LLM desde la plataforma. El conjunto de estándares es utilizado por numerosas organizaciones nacionales e internacionales, como VinBigData, VNPT AI, Viettel Solutions, la Universidad de Ciencia y Tecnología - VNU-HCM, UONLP x Ontocord - Universidad de Oregón (EE. UU.), DAMO Academy - Alibaba Group, equipos SDSRV - Samsung...

Zalo AI y el Instituto JAIST presentan una nueva versión de VMLU.

A medida que los modelos de IA se vuelven cada vez más inteligentes, el VMLU se ha actualizado para evaluar competencias más complejas. En concreto, el conjunto ampliado de estándares evalúa tres competencias fundamentales de un LLM moderno, entre ellas:

Comprensión de lectura (ViSQuAD): 3.310 preguntas evalúan la capacidad de comprender el texto en profundidad y manejar preguntas complejas basadas en las características específicas del idioma vietnamita y el contexto.

Razonamiento (ViDrop): 3.090 preguntas desafían las capacidades de razonamiento lógico de LLM a través de tareas como comparación, conteo y cálculos aritméticos.

Interacción (ViDialog): 210 diálogos evalúan la coherencia, la comprensión contextual y la aplicación del conocimiento multidisciplinario (historia, geografía, lógica) en el diálogo.

Lo más destacado del nuevo conjunto de estándares es el método de evaluación avanzado, que combina diversas opciones, desde preguntas abiertas de opción múltiple hasta requisitos de razonamiento paso a paso. En particular, VMLU aplica el método "LLM como juez" (utilizando LLM para evaluar LLM), una tendencia que está aplicando la comunidad global de IA para lograr resultados más objetivos y a gran escala.

Con 10,880 preguntas de opción múltiple que abarcan 58 temas y se dividen en varios niveles, la versión 2023 se centró en evaluar los conocimientos básicos del LLM. Por otro lado, el nuevo conjunto de estándares va un paso más allá, midiendo la capacidad de razonamiento e interacción del LLM en contextos reales . Esta actualización no solo ayuda a los desarrolladores a evaluar los modelos de forma más exhaustiva, sino que también promueve el LLM para generar valor para los usuarios finales.

El conjunto ampliado de criterios evalúa las tres habilidades fundamentales de un LLM moderno.

“Actualmente existen cientos de puntos de referencia diferentes en el mundo para evaluar las capacidades de los modelos lingüísticos de gran tamaño. Sin embargo, el número de puntos de referencia específicos para el vietnamita es muy limitado. Con el lanzamiento de los puntos de referencia en 2023 y 2025, esperamos diversificar los aspectos de la evaluación”, afirmó el Dr. Chau Thanh Duc, director de Investigación y Desarrollo de Inteligencia Artificial en Zalo AI.

El nuevo conjunto de estándares se ha lanzado en el sitio web de VMLU https://vmlu.ai/ para que las personas y los grupos de investigación evalúen sus modelos.

El nuevo conjunto de estándares se ha lanzado en el sitio web de VMLU.

Con la colaboración de los principales expertos de Zalo AI y el Instituto JAIST, VMLU continuará investigando y desarrollando estándares de evaluación más diversos en cuanto a campos y dificultad. En el futuro, VMLU también aspira a desarrollar estándares de evaluación de seguridad e integridad, garantizando que los modelos LLM se desarrollen de forma responsable.

Kommentar (0)