Os modelos de IA precisam de um conjunto de padrões que avaliem profundamente capacidades complexas

O Relatório de Status de Desenvolvimento (LLM) de 2024 da VMLU (Plataforma de Aprendizagem, Avaliação e Classificação para LLMs em Língua Vietnamita) mostrou um aumento acentuado no número de LLMs com foco em vietnamita. Especificamente, a plataforma VMLU publicou 45 LLMs no ranking, recebeu solicitações de avaliação de mais de 155 organizações e indivíduos e resumiu 691 downloads dos critérios de avaliação e 3.729 avaliações de LLM da plataforma em 2024.

Muitas organizações nacionais e estrangeiras têm usado VMLU, como VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (EUA), DAMO Academy - Alibaba Group, equipes SDSRV - Samsung...

VMLU Inglês 1

A VMLU lançará seu primeiro conjunto de critérios de avaliação de LLM em 2023.

Junto com a proliferação em quantidade, a qualidade dos modelos de LLM também está cada vez melhor. Se no passado, os LLMs eram treinados em torno de conhecimentos básicos, agora os desenvolvedores se concentram em expandir mais habilidades, como compreensão de leitura, troca de conversas ou raciocínio humano.

Respondendo ao desenvolvimento cada vez mais forte de modelos LLM vietnamitas avançados, a VMLU publicou novos conjuntos de padrões para avaliar melhor as capacidades complexas dos modelos.

Padrões que promovem a excelência em LLM

Anteriormente, quando o mercado carecia de padrões de qualidade, muitos grupos de pesquisa nacionais precisavam desenvolver suas próprias ferramentas de avaliação interna com seus próprios padrões. Isso limitava a avaliação e a comparação da qualidade do modelo com os LLMs existentes no mercado, o que dificultava a implementação de estratégias de treinamento adequadas.

Para resolver esse problema, em novembro de 2023, o VMLU - o primeiro conjunto de padrões comuns "Make in Vietnam" - foi pesquisado por uma equipe de importantes especialistas vietnamitas e fornecido gratuitamente à comunidade.

O conjunto padrão de 10.880 questões de múltipla escolha, abrangendo 58 tópicos, divididos em vários níveis, ajudou os desenvolvedores a acessar facilmente conjuntos de dados de avaliação geral. Ao mesmo tempo, aproveite as classificações da VMLU para comparar diretamente seus modelos com os LLMs existentes no mercado.

O Dr. Dang Tran Thai, Chefe do Departamento de Processamento de Linguagem Natural - Bloco de Tecnologia de Assistente Virtual VinBigData, cujo modelo ViGPT-1.6B-v1 está no ranking de modelos do zero (LLM treinado do zero) do VMLU, disse: "O VMLU tem dados relativamente completos e abrangentes para avaliar a capacidade de conhecimento do LLM para vietnamita. O VMLU não é útil apenas para avaliar a qualidade do LLM em cada estágio de desenvolvimento, mas também uma medida da eficácia de nossos experimentos durante o processo de treinamento."

“Este será um 'trampolim' para promover o desenvolvimento da IA em geral e do LLM em particular, porque precisamos ter bons padrões para termos uma base para treinar modelos de alta qualidade”, acrescentou o Dr. Dang Tran Thai.

Engenheiro Principal da Microsoft, Dr. Bach Hung Nguyen, também afirmou a utilidade do VMLU na avaliação do desempenho de modelos de LLM em vietnamita, ajudando as unidades de desenvolvimento a compreender melhor as capacidades do modelo. Além disso, o Dr. Bach Hung Nguyen também espera que o VMLU adicione um conjunto de habilidades úteis, como raciocínio, geração de código e sumarização de texto.

Nova versão do VMLU visa aperfeiçoar modelos LLM de ordem superior

Recentemente, a VMLU anunciou um novo conjunto de padrões que avaliam as habilidades de raciocínio e interação do LLM. O conjunto expandido de padrões avalia três habilidades essenciais de um LLM moderno, incluindo:

Compreensão de leitura (ViSQuAD) : 3.310 questões avaliam a capacidade de compreender o texto em profundidade e lidar com questões complexas com base nas características específicas da língua e do contexto vietnamita.

Raciocínio (ViDrop) : 3.090 questões desafiam as habilidades de raciocínio lógico do LLM por meio de tarefas como comparação, contagem e cálculos aritméticos.

Interação (ViDialog) : 210 diálogos avaliam coerência, capacidade de entender o contexto e aplicar conhecimento multidisciplinar (história, geografia, lógica) no diálogo.

Esta atualização não apenas ajuda os desenvolvedores a avaliar modelos de forma mais abrangente, mas também promove o LLM para criar valores úteis para os usuários finais.

VMLU irmão 2

Novos padrões VMLU serão lançados em 2025.

O Dr. Chau Thanh Duc, Diretor de Pesquisa e Desenvolvimento em Inteligência Artificial da Zalo AI – a organização que desenvolveu a VMLU – afirmou: “Atualmente, existem centenas de padrões diferentes no mundo para avaliar a capacidade de grandes modelos de linguagem. No entanto, o número de padrões de avaliação específicos para o vietnamita é muito limitado. Com o lançamento dos padrões em 2023 e 2025, esperamos diversificar os aspectos da avaliação.”

O novo conjunto de padrões foi lançado no site da VMLU https://vmlu.ai/ para que indivíduos e grupos de pesquisa avaliem seus modelos.

VMLU irmão 3

O novo conjunto de padrões foi atualizado no site da VMLU.

A VMLU é uma plataforma para avaliação e classificação de modelos vietnamitas de LLM, desenvolvida pela Zalo AI em colaboração com o Instituto Avançado de Ciência e Tecnologia do Japão (JAIST), e disponibilizada gratuitamente à comunidade a partir de novembro de 2023. Com o objetivo de acompanhar a comunidade vietnamita de IA, a VMLU contribui para promover a capacidade do povo vietnamita de dominar novas tecnologias. Assim, contribui para a era do desenvolvimento tecnológico do país com uma orientação inovadora em ciência, tecnologia, inovação e transformação digital nacional.

Fonte: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html