Anunciando os critérios de avaliação para raciocínio e interação do LLM vietnamita

Apresentado pela primeira vez em 2023, o VMLU (Vietnamese Multitask Language Understanding) se tornou um conjunto de padrões pioneiros “Make in Vietnam”, motivando muitos grupos de pesquisa nacionais a melhorar a qualidade dos grandes modelos de linguagem vietnamita (LLM).

Segundo as estatísticas, em 2024, a VMLU anunciou 45 LLMs no ranking, recebeu solicitações de avaliação de mais de 155 organizações e indivíduos, totalizou 691 downloads do conjunto de critérios de avaliação e 3.729 avaliações de LLMs da plataforma. O conjunto de padrões é utilizado por diversas organizações nacionais e estrangeiras, como VinBigData, VNPT AI, Viettel Solutions, Universidade de Ciência e Tecnologia - VNU-HCM, UONLP x Ontocord - Universidade de Oregon (EUA), DAMO Academy - Alibaba Group, equipes SDSRV - Samsung...

Zalo AI e JAIST Institute apresentam nova versão do VMLU.

À medida que os modelos de IA se tornam cada vez mais inteligentes, a VMLU foi atualizada para avaliar competências mais complexas. Especificamente, o conjunto expandido de padrões avalia três habilidades essenciais de um LLM moderno, incluindo:

Compreensão de leitura (ViSQuAD): 3.310 questões avaliam a capacidade de compreender o texto em profundidade e lidar com questões complexas com base nas características específicas da língua e do contexto vietnamitas.

Raciocínio (ViDrop): 3.090 questões desafiam as habilidades de raciocínio lógico do LLM por meio de tarefas como comparação, contagem e cálculos aritméticos.

Interação (ViDialog): 210 diálogos avaliam coerência, compreensão contextual e aplicação de conhecimento multidisciplinar (história, geografia, lógica) no diálogo.

O destaque do novo conjunto de padrões é o método de avaliação avançado, que combina uma variedade de formulários, desde perguntas abertas de múltipla escolha até requisitos de raciocínio passo a passo. Em particular, a VMLU aplica o método "LLM como juiz" (usando o LLM para avaliar o LLM) — uma tendência que vem sendo aplicada pela comunidade global de IA para alcançar resultados mais objetivos e em larga escala.

Com 10.880 questões de múltipla escolha, abrangendo 58 tópicos, divididas em vários níveis, a versão de 2023 se concentrou na avaliação do conhecimento fundamental do LLM. Enquanto isso, o novo conjunto de padrões vai um passo além, medindo a capacidade de raciocínio e interação do LLM em contextos da vida real . Essa atualização não apenas ajuda os desenvolvedores a avaliar modelos de forma mais abrangente, mas também promove o LLM na criação de valores úteis para os usuários finais.

O conjunto expandido de critérios avalia as três habilidades principais de um LLM moderno.

“Atualmente, existem centenas de benchmarks diferentes no mundo para avaliar as capacidades de grandes modelos de linguagem. No entanto, o número de benchmarks específicos para o vietnamita é muito limitado. Com o lançamento dos benchmarks em 2023 e 2025, esperamos diversificar os aspectos da avaliação”, disse o Dr. Chau Thanh Duc, Diretor de Pesquisa e Desenvolvimento em Inteligência Artificial da Zalo AI.

O novo conjunto de padrões foi lançado no site da VMLU https://vmlu.ai/ para que indivíduos e grupos de pesquisa avaliem seus modelos.

O novo conjunto de padrões foi lançado no site da VMLU.

Com a colaboração de especialistas renomados da Zalo AI e do Instituto JAIST, a VMLU continuará pesquisando e desenvolvendo padrões de avaliação mais diversificados em termos de áreas e níveis de dificuldade. No futuro, a VMLU também pretende desenvolver padrões de avaliação de segurança e integridade, garantindo que os modelos de LLM sejam desenvolvidos de forma responsável.

Fonte: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html