Vietnam.vn - Nền tảng quảng bá Việt Nam

Anunciando os critérios de avaliação para raciocínio e interação do LLM vietnamita

A Zalo AI e o Instituto Avançado de Ciência e Tecnologia do Japão (JAIST) apresentam uma nova versão do VMLU, incentivando a comunidade de IA vietnamita a aperfeiçoar modelos de LLM de alto nível.

ZNewsZNews01/10/2025

Apresentado pela primeira vez em 2023, o VMLU (Vietnamese Multitask Language Understanding) se tornou um conjunto de padrões pioneiros “Make in Vietnam”, motivando muitos grupos de pesquisa nacionais a melhorar a qualidade dos grandes modelos de linguagem vietnamita (LLM).

Segundo as estatísticas, em 2024, a VMLU anunciou 45 LLMs no ranking, recebeu solicitações de avaliação de mais de 155 organizações e indivíduos, totalizou 691 downloads do conjunto de critérios de avaliação e 3.729 avaliações de LLMs da plataforma. O conjunto de padrões é utilizado por diversas organizações nacionais e estrangeiras, como VinBigData, VNPT AI, Viettel Solutions, Universidade de Ciência e Tecnologia - VNU-HCM, UONLP x Ontocord - Universidade de Oregon (EUA), DAMO Academy - Alibaba Group, equipes SDSRV - Samsung...

VMLU anh 1

Zalo AI e JAIST Institute apresentam nova versão do VMLU.

À medida que os modelos de IA se tornam cada vez mais inteligentes, a VMLU foi atualizada para avaliar competências mais complexas. Especificamente, o conjunto expandido de padrões avalia três habilidades essenciais de um LLM moderno, incluindo:

Compreensão de leitura (ViSQuAD): 3.310 questões avaliam a capacidade de compreender o texto em profundidade e lidar com questões complexas com base nas características específicas da língua e do contexto vietnamitas.

Raciocínio (ViDrop): 3.090 questões desafiam as habilidades de raciocínio lógico do LLM por meio de tarefas como comparação, contagem e cálculos aritméticos.

Interação (ViDialog): 210 diálogos avaliam coerência, compreensão contextual e aplicação de conhecimento multidisciplinar (história, geografia, lógica) no diálogo.

O destaque do novo conjunto de padrões é o método de avaliação avançado, que combina uma variedade de formulários, desde perguntas abertas de múltipla escolha até requisitos de raciocínio passo a passo. Em particular, a VMLU aplica o método "LLM como juiz" (usando o LLM para avaliar o LLM) — uma tendência que vem sendo aplicada pela comunidade global de IA para alcançar resultados mais objetivos e em larga escala.

Com 10.880 questões de múltipla escolha, abrangendo 58 tópicos, divididas em vários níveis, a versão de 2023 se concentrou na avaliação do conhecimento fundamental do LLM. Enquanto isso, o novo conjunto de padrões vai um passo além, medindo a capacidade de raciocínio e interação do LLM em contextos da vida real . Essa atualização não apenas ajuda os desenvolvedores a avaliar modelos de forma mais abrangente, mas também promove o LLM na criação de valores úteis para os usuários finais.

VMLU anh 2

O conjunto expandido de critérios avalia as três habilidades principais de um LLM moderno.

“Atualmente, existem centenas de benchmarks diferentes no mundo para avaliar as capacidades de grandes modelos de linguagem. No entanto, o número de benchmarks específicos para o vietnamita é muito limitado. Com o lançamento dos benchmarks em 2023 e 2025, esperamos diversificar os aspectos da avaliação”, disse o Dr. Chau Thanh Duc, Diretor de Pesquisa e Desenvolvimento em Inteligência Artificial da Zalo AI.

O novo conjunto de padrões foi lançado no site da VMLU https://vmlu.ai/ para que indivíduos e grupos de pesquisa avaliem seus modelos.

VMLU anh 3

O novo conjunto de padrões foi lançado no site da VMLU.

Com a colaboração de especialistas renomados da Zalo AI e do Instituto JAIST, a VMLU continuará pesquisando e desenvolvendo padrões de avaliação mais diversificados em termos de áreas e níveis de dificuldade. No futuro, a VMLU também pretende desenvolver padrões de avaliação de segurança e integridade, garantindo que os modelos de LLM sejam desenvolvidos de forma responsável.

Fonte: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html


Comentário (0)

No data
No data

Herança

;

Figura

;

Negócios

;

No videos available

Eventos atuais

;

Sistema político

;

Local

;

Produto

;