A competição de Processamento de Fala e Língua Vietnamita (VLSP) faz parte da Conferência Internacional anual sobre Processamento de Fala e Língua Vietnamita, organizada pelo Clube VLSP, uma filial da Associação Vietnamita de Tecnologia da Informação. A VLSP 2023 organiza 10 competições sobre processamento de fala e texto, reunindo pesquisadores, especialistas e unidades de desenvolvimento tecnológico de ponta.

Embora esta tenha sido a quarta vez que a Viettel AI participou da competição e já tivesse vencido três vezes antes, os engenheiros da Viettel ainda encontraram muitas dificuldades devido às mudanças na estrutura das categorias da competição.

Especificamente, em comparação com o ano passado, as categorias de Reconhecimento de Fala e Reconhecimento de Emoções deste ano foram fundidas em uma única categoria. As equipes devem resolver dois problemas simultaneamente para garantir que tanto o texto quanto a emoção da frase sejam reconhecidos. A carga de trabalho e a dificuldade dobraram.

Aproveite todos os dados, sejam eles de baixa ou alta qualidade

Além de mudar a estrutura das categorias, o exame deste ano também se concentra na construção de modelos do zero com condições de dados limitadas, incluindo dados brutos, não rotulados e de baixa qualidade. O exame fornece 4 grupos de dados com qualidade e formato diferentes. Há dados que incluem apenas áudio não rotulado, dados que incluem apenas áudio e texto, dados que incluem emoções e áudio, de alta qualidade, rótulos padrão, e um conjunto de dados que inclui emoções e áudio, de baixa qualidade. Cada conjunto de dados é claramente definido para atender a cada propósito e categoria de exame, com um total de mais de 300 horas em todos os conjuntos de dados. Este é um número bastante modesto em comparação com conjuntos de dados padrão para treinamento de Reconhecimento de Fala, que geralmente exigem de 1.000 a 2.000 horas ou mais.

Cada equipe tinha menos de 2 meses para trabalhar e enviar seu trabalho, mas, na realidade, o tempo gasto na pesquisa de soluções foi muito menor devido à falta de recursos.

“Este ano, a Viettel AI dedicou muitos recursos de infraestrutura de computação à pesquisa de novas tecnologias, bem como ao desenvolvimento de produtos, enquanto o reconhecimento de fala é uma tecnologia que exige muitos recursos de hardware”, disse o Sr. Dang Dinh Son - Engenheiro de Inteligência Artificial, Plataforma de Assistente Virtual, Viettel AI.

imagem 1.jpg
Grupo de Engenharia de Inteligência Artificial, Bloco de Plataforma de Assistente Virtual, representando a Viettel AI participando na categoria de Reconhecimento de Fala e Reconhecimento de Emoções de Fala - VLSP 2023

Diante da baixa qualidade e do baixo volume de dados, a equipe de pesquisa imediatamente decidiu adotar a perspectiva de "utilizar todos os dados, independentemente da qualidade". Para isso, é necessário construir um ciclo de treinamento que processe todos os dados e um único modelo para resolver muitos problemas diferentes, em vez de muitos modelos.

Os resultados do domínio da tecnologia pioneira

No contexto de falta de dados e de recursos, a equipe de pesquisa decidiu construir um processo de processamento simples, não massivo, mas, o mais importante, refinado até o menor detalhe.

Os engenheiros de IA da Viettel estudaram cuidadosamente as pesquisas mais recentes de importantes conferências e periódicos do mundo todo para encontrar uma abordagem. Combinando métodos de processamento de dados eficazes para treinar o modelo, a equipe de pesquisa construiu um ciclo de treinamento para processar todos os dados disponíveis. O ciclo inclui três etapas: construção de um modelo pré-treinado para descrever características de voz sem rótulos, ajuste fino a partir do modelo pré-treinado para dois problemas: reconhecimento de fala e reconhecimento de emoções, e inferência.

"A experiência adquirida com a resolução de problemas de falta de dados durante o desenvolvimento e a implantação de produtos anteriores também contribuiu significativamente para ajudar a equipe a encontrar um método de tomada de decisão. Por outro lado, o conhecimento e os resultados obtidos no teste também têm o potencial de serem aplicados imediatamente aos produtos da Viettel AI, de modo que o processo de trabalho durante a realização do teste ocorreu sem problemas", disse o Sr. Bui Tien Dat, Engenheiro de Plataforma Assistente Virtual da Viettel AI.

Como resultado, a Viettel AI não só ganhou o primeiro prêmio nas categorias Reconhecimento de Fala e Reconhecimento de Emoções de Fala, mas também alcançou uma pontuação impressionante de 89,18% (as próximas equipes ficaram com 83,40% e 78,45%, respectivamente).

O Sr. Son disse que o fator-chave está no modelo de processamento de fala específico para vietnamita que a Viettel AI desenvolveu há muito tempo.

Em vez de usar modelos e instruções de resultados de pesquisas disponíveis, a Viettel AI optou por construir e desenvolver seu próprio modelo para processamento de fala em vietnamita. Este modelo é constantemente atualizado, otimizado e se torna cada vez mais eficaz, disse o Sr. Son.

Além de se limitar à concorrência, esta solução da Viettel AI será a base para aprimorar os produtos de central telefônica virtual, o assistente virtual Viettel, ajudando a identificar as emoções dos clientes com mais precisão nas conversas, fornecendo feedback ou escolhendo nuances de palavras apropriadas. Assim, as conversas entre humanos e IA se tornarão mais naturais, melhorando a experiência do usuário. Muitas novas aplicações em atendimento ao cliente também estão sendo abertas, como a criação de um sistema para identificar automaticamente reclamações de clientes e reclamações à central telefônica para tratamento oportuno ou para explorar informações.

imagem 2.jpg
O Sr. Bui Tien Dat - Engenheiro de plataforma assistente virtual da Viettel AI representou a equipe para apresentar os resultados da pesquisa na conferência.

O representante da unidade disse que a Viettel AI continuará desenvolvendo tecnologia, atualizando constantemente os produtos para aumentar a precisão, melhorar a experiência do usuário e a eficiência do produto.

Quoc Tuan