A competição de Processamento de Fala e Linguagem Vietnamita (VLSP) faz parte da Conferência Internacional anual sobre Processamento de Fala e Linguagem Vietnamita, organizada pelo Clube VLSP, um braço da Associação Vietnamita de Tecnologia da Informação. A VLSP 2023 organiza 10 competições sobre processamento de fala e texto, reunindo pesquisadores de ponta, especialistas e unidades de desenvolvimento tecnológico.

Embora esta tenha sido a quarta vez que a Viettel AI participou da competição e já tenha vencido três vezes anteriormente, os engenheiros da Viettel ainda encontraram muitas dificuldades devido às mudanças na estrutura das categorias da competição.

Especificamente, em comparação com o ano passado, as categorias de Reconhecimento de Fala e Reconhecimento de Emoções foram unificadas em uma única categoria. As equipes precisam resolver dois problemas simultaneamente para garantir o reconhecimento tanto do texto quanto da emoção da frase; a carga de trabalho e a dificuldade dobraram.

Utilize todos os dados, sejam eles de baixa ou alta qualidade.

Além de alterar a estrutura das categorias, o exame deste ano também se concentra na construção de modelos do zero com condições de dados limitadas, incluindo dados brutos, não rotulados e de baixa qualidade. O exame fornece 4 grupos de dados com diferentes qualidades e formatos. Há dados que incluem apenas áudio não rotulado, dados que incluem apenas áudio e texto, dados que incluem emoções e áudio, de alta qualidade e com rótulos padrão, e dados que incluem emoções e áudio, de baixa qualidade. Cada conjunto de dados é claramente definido para atender a um propósito específico e a uma categoria do exame, totalizando mais de 300 horas dedicadas a todos os conjuntos de dados. Esse número é bastante modesto se comparado aos conjuntos de dados padrão para treinamento de reconhecimento de fala, que geralmente exigem de 1.000 a 2.000 horas ou mais.

Cada equipe tinha menos de 2 meses para concluir e enviar seu trabalho, mas, na realidade, o tempo efetivamente gasto na pesquisa de soluções foi muito menor devido à falta de recursos.

“Este ano, a Viettel AI dedicou muitos recursos de infraestrutura computacional à pesquisa de novas tecnologias, bem como ao desenvolvimento de produtos, sendo o reconhecimento de fala uma tecnologia que exige recursos de hardware muito grandes”, compartilhou Dang Dinh Son, Engenheiro de Inteligência Artificial da Plataforma de Assistente Virtual da Viettel AI.

foto 1.jpg
Grupo de Engenharia de Inteligência Artificial, Bloco de Plataforma de Assistente Virtual, representando a Viettel AI, participando na categoria de Reconhecimento de Fala e Reconhecimento de Emoções na Fala - VLSP 2023.

Diante da condição de baixo volume e qualidade dos dados, a equipe de pesquisa imediatamente definiu a perspectiva de "utilizar todos os dados, independentemente de sua qualidade". Para isso, é necessário construir um ciclo de treinamento capaz de processar todos os dados, bem como um único modelo para resolver diversos problemas, em vez de vários modelos.

Os resultados do domínio pioneiro da tecnologia

Diante da escassez de dados e de recursos, a equipe de pesquisa decidiu construir um processo de processamento simples, não massivo, porém, crucialmente, preciso até o menor detalhe.

Os engenheiros de IA da Viettel estudaram cuidadosamente as pesquisas mais recentes de conferências e periódicos de renome mundial para encontrar uma abordagem eficaz. Combinando esses métodos com técnicas de processamento de dados comprovadamente eficientes para o treinamento do modelo, a equipe de pesquisa desenvolveu um ciclo de treinamento capaz de processar todos os dados disponíveis. O ciclo inclui três etapas: construção de um modelo pré-treinado para descrever características da voz sem rótulos, ajuste fino do modelo pré-treinado para dois problemas: reconhecimento de fala e reconhecimento de emoções, e inferência.

“A experiência adquirida na resolução de problemas com falta de dados durante o desenvolvimento e a implementação de produtos anteriores também contribuiu significativamente para ajudar a equipe a encontrar um método decisivo. Por outro lado, o conhecimento e os resultados obtidos com o teste também têm potencial para serem aplicados imediatamente aos produtos da Viettel AI, de modo que o processo de trabalho durante a realização do teste transcorreu sem problemas”, afirmou Bui Tien Dat, Engenheiro da Plataforma de Assistentes Virtuais da Viettel AI.

Como resultado, a Viettel AI não só ganhou o primeiro prêmio nas categorias de Reconhecimento de Fala e Reconhecimento de Emoções na Fala, como também alcançou a impressionante pontuação de 89,18% (as equipes seguintes obtiveram 83,40% e 78,45%, respectivamente).

O Sr. Son afirmou que o fator chave reside no modelo de processamento de fala específico para vietnamita que a Viettel AI vem desenvolvendo há bastante tempo.

“Em vez de usar modelos e instruções de resultados de pesquisas disponíveis, a Viettel AI optou por construir e desenvolver seu próprio modelo para processamento de fala em vietnamita. Esse modelo é constantemente atualizado, otimizado e se torna cada vez mais eficaz”, disse o Sr. Son.

A solução de IA da Viettel não se limita à concorrência; ela servirá de base para aprimorar os produtos de central telefônica virtual e o assistente virtual da Viettel, ajudando a identificar com mais precisão as emoções dos clientes durante as conversas, fornecendo feedback ou escolhendo nuances de palavras apropriadas. Dessa forma, as conversas entre humanos e IA se tornarão mais naturais, melhorando a experiência do usuário. Muitas novas aplicações no atendimento ao cliente também se abrem, como a criação de um sistema para identificar automaticamente reclamações e solicitações de clientes à central telefônica, permitindo o tratamento oportuno ou a análise das informações.

foto 2.jpg
O Sr. Bui Tien Dat, Engenheiro de Plataforma de Assistente Virtual da Viettel AI, representou a equipe na apresentação dos resultados da pesquisa no workshop.

O representante da unidade afirmou que a Viettel AI continuará desenvolvendo tecnologia, atualizando constantemente os produtos para aumentar a precisão, aprimorar a experiência do usuário e a eficiência do produto.

Quoc Tuan