O trabalho de pesquisa para ajudar a aumentar a precisão dos modelos de reconhecimento de fala em tempo real (Streaming Automatic Speech Recognition) de Le Duy Khanh - engenheiro "GenZ" da Zalo AI - será anunciado pela primeira vez na Conferência Científica Internacional, que acontecerá na Grécia em setembro de 2024.
Com o tópico " Melhorando o reconhecimento de fala em streaming com atenção contextual deslocada no tempo e mascaramento dinâmico de contexto correto " , o artigo de pesquisa do engenheiro de IA da Zalo, nascido em 2000, alcançou uma pontuação quase perfeita - 11/12 pontos, passando pela rigorosa rodada de revisão com mais de 2.000 artigos participantes a serem apresentados na Conferência Interspeech na forma de uma sessão oral.
“ Estou muito orgulhoso de que meu primeiro artigo científico tenha sido reconhecido por uma prestigiosa conferência científica e tenho a oportunidade de apresentar as conquistas de pesquisa do Vietnã para grandes empresas de tecnologia, especialistas e a comunidade internacional ”, compartilhou Le Duy Khanh.
Sob a orientação do Dr. Chau Thanh Duc - Chefe do Departamento de Pesquisa e Desenvolvimento da Zalo AI, Professor da Universidade de Ciências Naturais (Universidade Nacional da Cidade de Ho Chi Minh), espera-se que este projeto de pesquisa faça uma contribuição importante para a atualização dos modelos de reconhecimento de fala, aumentando a precisão do ditado de voz e da conversão de voz em texto no aplicativo Zalo.
“ Sintetizar a pesquisa altamente prática da Zalo AI em artigos científicos e apresentá-los em prestigiosas conferências internacionais é muito significativo. Isso não apenas demonstra a capacidade dos engenheiros vietnamitas, mas também o desejo de compartilhar experiências e contribuir para o desenvolvimento da comunidade global de IA”, disse o Dr. Chau Thanh Duc.
Anteriormente, a Zalo integrou essa pesquisa ao seu aplicativo de mensagens a partir do final de 2023, ajudando a melhorar significativamente a precisão do recurso "composição de mensagens de voz". Esse recurso permite que os usuários redijam mensagens por voz em vez de digitá-las manualmente, economizando tempo e tornando-o mais prático em diversas situações de uso. Ao mesmo tempo, a precisão desse recurso atingiu 95% na prática; a taxa de necessidade de reedição de texto após a composição por voz caiu de 6,4% para apenas 4,8%.
De acordo com estatísticas da Zalo, embora o recurso ainda esteja em fase de testes, ele gerou quase 4,5 milhões de mensagens por dia e atraiu cerca de 3,2 milhões de usuários mensais (dados atualizados até junho de 2024).
Desde o início de sua jornada pioneira em pesquisa de IA em 2017, a Zalo sempre acreditou em "empoderar" a geração mais jovem. Atualmente, até 31% dos funcionários da Zalo pertencem à geração Z. Em 2021, dois outros tópicos de pesquisa da equipe de engenharia de IA da Zalo, relacionados à tecnologia de processamento de fala, também foram reconhecidos na Conferência Internacional Ásia- Pacífico sobre Inteligência Artificial (PRICAI 2021). Notavelmente, os autores desses dois tópicos são todos jovens pesquisadores com menos de 30 anos.
A Interspeech é uma conferência internacional abrangente, prestigiosa e de longa data sobre Processamento da Fala, organizada pela Associação Internacional de Comunicação da Fala. Este ano, a conferência, com o tema "Fala e além " , acontecerá de 1 a 5 de setembro de 2024 na ilha de Kos (Grécia).
Comentário (0)