Les travaux de recherche visant à accroître la précision des modèles de reconnaissance vocale en temps réel (Streaming Automatic Speech Recognition) de Le Duy Khanh - ingénieur « GenZ » de Zalo AI - seront annoncés pour la première fois lors de la Conférence scientifique internationale, qui se tiendra en Grèce en septembre 2024.
Avec le thème « Améliorer la reconnaissance vocale en streaming avec l'attention contextuelle décalée dans le temps et le masquage dynamique du contexte droit » , le document de recherche de l'ingénieur en IA de Zalo né en 2000 a obtenu un score presque parfait - 11/12 points, passant le tour d'examen rigoureux avec plus de 2 000 articles participants pour être présenté à la conférence Interspeech sous la forme d'une séance orale.
« Je suis très fier que mon premier article scientifique ait été reconnu par une conférence scientifique prestigieuse et j'ai l'opportunité de présenter les réalisations de la recherche vietnamienne aux grandes entreprises technologiques, aux experts et à la communauté internationale », a partagé Le Duy Khanh.
Sous la direction du Dr Chau Thanh Duc - Chef du département de recherche et développement chez Zalo AI, chargé de cours à l'Université des sciences naturelles (Université nationale de Ho Chi Minh-Ville), ce projet de recherche devrait apporter une contribution importante à la mise à niveau des modèles de reconnaissance vocale, en augmentant la précision de la dictée vocale et de la voix en texte sur l'application Zalo.
« Synthétiser les recherches hautement pratiques de Zalo AI dans des articles scientifiques et les présenter lors de prestigieuses conférences internationales est très significatif. Cela démontre non seulement le potentiel des ingénieurs vietnamiens, mais aussi leur volonté de partager leurs expériences et de contribuer au développement de la communauté mondiale de l'IA », a déclaré le Dr Chau Thanh Duc.
Fin 2023, Zalo avait intégré cette recherche à son application de messagerie, améliorant ainsi significativement la précision de la fonction de composition vocale. Cette fonctionnalité permet aux utilisateurs de rédiger des messages vocalement plutôt que de les saisir à la main, ce qui leur fait gagner du temps et les rend plus pratiques dans de nombreuses situations. Parallèlement, la précision de cette fonctionnalité a atteint 95 % en pratique ; le taux de réédition du texte après une composition vocale est passé de 6,4 % à seulement 4,8 %.
Selon les statistiques de Zalo, bien que la fonctionnalité soit encore en phase de test, elle a généré près de 4,5 millions de messages par jour et attiré environ 3,2 millions d'utilisateurs mensuels (données mises à jour jusqu'en juin 2024).
Depuis son lancement en 2017, pionnier de la recherche en IA, Zalo a toujours misé sur l'autonomisation des jeunes générations. Actuellement, jusqu'à 31 % des employés de Zalo appartiennent à la génération Z. En 2021, deux autres sujets de recherche de l'équipe d'ingénierie IA de Zalo, liés aux technologies de traitement de la parole, ont également été récompensés lors de la Conférence internationale Asie- Pacifique sur l'intelligence artificielle (PRICAI 2021). Il est à noter que les auteurs de ces deux sujets sont tous de jeunes chercheurs de moins de 30 ans.
Interspeech est une conférence internationale prestigieuse, complète et de longue date sur le traitement de la parole, organisée par l'International Speech Communication Association. Cette année, la conférence, intitulée « La parole et au-delà » , se tiendra du 1er au 5 septembre 2024 sur l'île de Kos (Grèce).
Comment (0)