Apresentado pela primeira vez em 2023, o VMLU (Vietnamese Multitask Language Understanding) se tornou um conjunto de padrões pioneiros “Make in Vietnam”, motivando muitos grupos de pesquisa nacionais a melhorar a qualidade dos grandes modelos de linguagem vietnamita (LLM).
Segundo as estatísticas, em 2024, a VMLU anunciou 45 LLMs no ranking, recebeu solicitações de avaliação de mais de 155 organizações e indivíduos, totalizou 691 downloads do conjunto de critérios de avaliação e 3.729 avaliações de LLMs da plataforma. O conjunto de padrões é utilizado por diversas organizações nacionais e estrangeiras, como VinBigData, VNPT AI, Viettel Solutions, Universidade de Ciência e Tecnologia - VNU-HCM, UONLP x Ontocord - Universidade de Oregon (EUA), DAMO Academy - Alibaba Group, equipes SDSRV - Samsung...
![]() |
Zalo AI e JAIST Institute apresentam nova versão do VMLU. |
À medida que os modelos de IA se tornam cada vez mais inteligentes, a VMLU foi atualizada para avaliar competências mais complexas. Especificamente, o conjunto expandido de padrões avalia três habilidades essenciais de um LLM moderno, incluindo:
Compreensão de leitura (ViSQuAD): 3.310 questões avaliam a capacidade de compreender o texto em profundidade e lidar com questões complexas com base nas características específicas da língua e do contexto vietnamitas.
Raciocínio (ViDrop): 3.090 questões desafiam as habilidades de raciocínio lógico do LLM por meio de tarefas como comparação, contagem e cálculos aritméticos.
Interação (ViDialog): 210 diálogos avaliam coerência, compreensão contextual e aplicação de conhecimento multidisciplinar (história, geografia, lógica) no diálogo.
O destaque do novo conjunto de padrões é o método de avaliação avançado, que combina uma variedade de formulários, desde perguntas abertas de múltipla escolha até requisitos de raciocínio passo a passo. Em particular, a VMLU aplica o método "LLM como juiz" (usando o LLM para avaliar o LLM) — uma tendência que vem sendo aplicada pela comunidade global de IA para alcançar resultados mais objetivos e em larga escala.
Com 10.880 questões de múltipla escolha, abrangendo 58 tópicos, divididas em vários níveis, a versão de 2023 se concentrou na avaliação do conhecimento fundamental do LLM. Enquanto isso, o novo conjunto de padrões vai um passo além, medindo a capacidade de raciocínio e interação do LLM em contextos da vida real . Essa atualização não apenas ajuda os desenvolvedores a avaliar modelos de forma mais abrangente, mas também promove o LLM na criação de valores úteis para os usuários finais.
![]() |
O conjunto expandido de critérios avalia as três habilidades principais de um LLM moderno. |
“Atualmente, existem centenas de benchmarks diferentes no mundo para avaliar as capacidades de grandes modelos de linguagem. No entanto, o número de benchmarks específicos para o vietnamita é muito limitado. Com o lançamento dos benchmarks em 2023 e 2025, esperamos diversificar os aspectos da avaliação”, disse o Dr. Chau Thanh Duc, Diretor de Pesquisa e Desenvolvimento em Inteligência Artificial da Zalo AI.
O novo conjunto de padrões foi lançado no site da VMLU https://vmlu.ai/ para que indivíduos e grupos de pesquisa avaliem seus modelos.
![]() |
O novo conjunto de padrões foi lançado no site da VMLU. |
Com a colaboração de especialistas renomados da Zalo AI e do Instituto JAIST, a VMLU continuará pesquisando e desenvolvendo padrões de avaliação mais diversificados em termos de áreas e níveis de dificuldade. No futuro, a VMLU também pretende desenvolver padrões de avaliação de segurança e integridade, garantindo que os modelos de LLM sejam desenvolvidos de forma responsável.
Fonte: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html
Comentário (0)