Los modelos de IA necesitan un conjunto de estándares que evalúen en profundidad capacidades complejas

El Informe de Estado de Desarrollo 2024 de VMLU (Plataforma de Aprendizaje, Evaluación y Clasificación de Maestrías en Derecho en Vietnamita) ha mostrado un marcado aumento en el número de Maestrías en Derecho centradas en el vietnamita. En concreto, la plataforma VMLU ha publicado 45 Maestrías en Derecho en la clasificación, ha recibido solicitudes de evaluación de más de 155 organizaciones e individuos, y ha recopilado 691 descargas de los criterios de evaluación y 3729 evaluaciones de Maestrías en Derecho desde la plataforma en 2024.

Muchas organizaciones nacionales y extranjeras han estado utilizando VMLU, como VinBigData, VNPT AI, Viettel Solutions, Universidad de Tecnología - VNU-HCM, UONLP x Ontocord - Universidad de Oregon (EE. UU.), DAMO Academy - Alibaba Group, equipos SDSRV - Samsung...

VMLU Inglés 1

VMLU lanzará su primer conjunto de criterios de evaluación de LLM en 2023.

Junto con la proliferación de la cantidad, la calidad de los modelos LLM también mejora cada vez más. Si antes, los LLM se formaban en conocimientos básicos, ahora los desarrolladores se centran en desarrollar habilidades como la comprensión lectora, el intercambio de conversaciones o el razonamiento humano.

En respuesta al desarrollo cada vez más fuerte de los modelos LLM vietnamitas avanzados, VMLU ha publicado nuevos conjuntos de estándares para evaluar aún más las capacidades complejas de los modelos.

Estándares que promueven la excelencia LLM

Anteriormente, cuando el mercado carecía de estándares de calidad, muchos grupos de investigación nacionales se veían obligados a desarrollar sus propias herramientas de evaluación interna con sus propios estándares. Esto limitaba la evaluación y la comparación de la calidad del modelo con los LLM existentes en el mercado para contar con estrategias de formación adecuadas.

Para resolver este problema, en noviembre de 2023, un equipo de destacados expertos vietnamitas investigó VMLU, el primer conjunto de estándares comunes "Make in Vietnam", y lo puso a disposición de forma gratuita de la comunidad.

El conjunto estándar de 10,880 preguntas de opción múltiple, que abarcan 58 temas y están divididas en varios niveles, ha facilitado el acceso a los conjuntos de datos de evaluación general. Al mismo tiempo, aproveche las clasificaciones de VMLU para comparar directamente sus modelos con los programas de maestría en derecho (LLM) existentes en el mercado.

El Dr. Dang Tran Thai, Jefe del Departamento de Procesamiento del Lenguaje Natural del Bloque de Tecnología de Asistentes Virtuales de VinBigData, cuyo modelo ViGPT-1.6B-v1 se encuentra entre los mejores modelos de aprendizaje desde cero (LLM entrenado desde cero) de VMLU, afirmó: «VMLU cuenta con datos bastante completos y exhaustivos para evaluar la capacidad de conocimiento del LLM en vietnamita. VMLU no solo es útil para evaluar la calidad del LLM en cada etapa de desarrollo, sino también para medir la eficacia de nuestros experimentos durante el proceso de entrenamiento».

“Este será un ‘trampolín’ para promover el desarrollo de la IA en general y del LLM en particular, porque debemos tener buenos estándares para tener una base para entrenar modelos de alta calidad”, agregó el Dr. Dang Tran Thai.

El Dr. Bach Hung Nguyen, ingeniero principal de Microsoft, también afirmó la utilidad de VMLU para evaluar el rendimiento de los modelos LLM en vietnamita, lo que ayuda a las unidades de desarrollo a comprender mejor las capacidades del modelo. Además, el Dr. Bach Hung Nguyen espera que VMLU incorpore un conjunto de habilidades útiles como razonamiento, generación de código y resumen de texto.

La nueva versión de VMLU busca perfeccionar los modelos LLM de orden superior

Recientemente, VMLU anunció un nuevo conjunto de estándares que evalúan las habilidades de razonamiento e interacción de los estudiantes de LLM. Este conjunto ampliado de estándares evalúa tres competencias fundamentales de un LLM moderno, entre ellas:

Comprensión de lectura (ViSQuAD) : 3.310 preguntas evalúan la capacidad de comprender el texto en profundidad y manejar preguntas complejas basadas en las características específicas del idioma vietnamita y el contexto.

Razonamiento (ViDrop) : 3.090 preguntas desafían las capacidades de razonamiento lógico de LLM a través de tareas como comparación, conteo y cálculos aritméticos.

Interacción (ViDialog) : 210 diálogos evalúan la coherencia, la capacidad de comprender el contexto y aplicar conocimientos multidisciplinarios (historia, geografía, lógica) en el diálogo.

Esta actualización no solo ayuda a los desarrolladores a evaluar los modelos de manera más integral, sino que también promueve que LLM cree valores útiles para los usuarios finales.

Hermano VMLU 2

Los nuevos estándares VMLU se publicarán en 2025.

El Dr. Chau Thanh Duc, Director de Investigación y Desarrollo de Inteligencia Artificial en Zalo AI, la organización que desarrolló VMLU, afirmó: «Actualmente existen cientos de estándares diferentes en el mundo para evaluar la capacidad de los modelos lingüísticos de gran tamaño. Sin embargo, el número de estándares de evaluación específicos para vietnamita es muy limitado. Con el lanzamiento de los estándares en 2023 y 2025, esperamos diversificar los aspectos de la evaluación».

El nuevo conjunto de estándares se ha lanzado en el sitio web de VMLU https://vmlu.ai/ para que las personas y los grupos de investigación evalúen sus modelos.

Hermano VMLU 3

El nuevo conjunto de estándares se ha actualizado en el sitio web de VMLU.

VMLU es una plataforma para evaluar y clasificar los modelos LLM vietnamitas, desarrollada por Zalo AI en colaboración con el Instituto Avanzado de Ciencia y Tecnología de Japón (JAIST), y disponible gratuitamente a la comunidad desde noviembre de 2023. Con el objetivo de acompañar a la comunidad vietnamita de IA, VMLU contribuye a promover la capacidad de los vietnamitas para dominar las nuevas tecnologías. De este modo, contribuye al desarrollo tecnológico del país con una orientación innovadora en ciencia, tecnología, innovación y transformación digital nacional.

Estándares que promueven la excelencia LLM

La nueva versión de VMLU busca perfeccionar los modelos LLM de orden superior

Kommentar (0)