Le projet de recherche visant à augmenter la précision des modèles de reconnaissance vocale en temps réel (Streaming Automatic Speech Recognition) de Le Duy Khanh - ingénieur « GenZ » de Zalo AI - sera annoncé pour la première fois lors de la Conférence scientifique internationale, qui se tiendra en Grèce en septembre 2024.
Avec le thème « Améliorer la reconnaissance vocale en streaming avec une attention contextuelle décalée dans le temps et un masquage dynamique du contexte droit » , le document de recherche de l'ingénieur en IA de Zalo né en 2000 a obtenu un score presque parfait - 11/12 points, passant le tour d'examen rigoureux avec plus de 2 000 articles participants pour être présenté à la conférence Interspeech sous la forme d'une séance orale.
« Je suis très fier que mon premier article scientifique ait été reconnu par une conférence scientifique prestigieuse et j'ai l'opportunité de présenter les réalisations de la recherche vietnamienne aux grandes entreprises technologiques, aux experts et à la communauté internationale », a partagé Le Duy Khanh.
Sous la direction du Dr Chau Thanh Duc - Chef du département de recherche et développement chez Zalo AI, maître de conférences à l'Université des sciences (Université nationale de Ho Chi Minh-Ville), ce projet de recherche devrait apporter une contribution importante à la mise à niveau des modèles de reconnaissance vocale, en augmentant la précision de la dictée vocale et de la voix en texte sur l'application Zalo.
« La synthèse des recherches hautement pratiques de Zalo AI dans des articles scientifiques et leur présentation lors de prestigieuses conférences internationales revêtent une importance capitale. Cela démontre non seulement le talent des ingénieurs vietnamiens, mais aussi leur volonté de partager leurs expériences et de contribuer au développement de la communauté mondiale de l'IA », a déclaré le Dr Chau Thanh Duc.
Depuis fin 2023, Zalo a intégré cette recherche à son application de messagerie, améliorant ainsi considérablement la précision de la fonctionnalité de « rédaction de messages vocaux ». Cette fonctionnalité permet aux utilisateurs de rédiger des messages vocalement plutôt que de les saisir, ce qui permet de gagner du temps et de simplifier la tâche dans de nombreuses situations. Parallèlement, la précision de cette fonctionnalité a atteint 95 % en pratique ; le taux de modification de texte après une rédaction vocale est passé de 6,4 % à seulement 4,8 %.
Selon les statistiques de Zalo, bien que la fonctionnalité soit encore en phase de test, elle a généré près de 4,5 millions de messages par jour et attiré environ 3,2 millions d'utilisateurs mensuels (données mises à jour jusqu'en juin 2024).
Depuis son lancement en 2017, pionnier de la recherche en IA, Zalo a toujours misé sur l'autonomisation des jeunes générations. Actuellement, jusqu'à 31 % des employés de Zalo appartiennent à la génération Z. En 2021, deux autres sujets de recherche de l'équipe d'ingénierie IA de Zalo, liés aux technologies de traitement de la parole, ont également été récompensés lors de la Conférence internationale Asie- Pacifique sur l'intelligence artificielle (PRICAI 2021). Il est à noter que les auteurs de ces deux sujets sont tous de jeunes chercheurs de moins de 30 ans.
Interspeech est une conférence internationale prestigieuse, complète et de longue date sur le traitement de la parole, organisée par l'International Speech Communication Association. Cette année, la conférence, intitulée « La parole et au-delà » , se tiendra du 1er au 5 septembre 2024 sur l'île de Kos (Grèce).
Comment (0)