Les travaux de recherche visant à améliorer la précision des modèles de reconnaissance vocale en temps réel (Streaming Automatic Speech Recognition) menés par Le Duy Khanh, ingénieur « GenZ » de Zalo AI, seront annoncés pour la première fois lors de la Conférence scientifique internationale qui se tiendra en Grèce en septembre 2024.
Avec pour sujet « Amélioration de la reconnaissance vocale en continu grâce à l'attention contextuelle décalée dans le temps et au masquage dynamique du contexte droit » , l'article de recherche de l'ingénieur en IA de Zalo né en 2000 a obtenu un score presque parfait - 11/12 points - passant avec succès le rigoureux processus de sélection parmi plus de 2 000 articles participants pour être présenté à la conférence Interspeech sous forme de session orale.
« Je suis très fier que mon premier article scientifique ait été reconnu par une prestigieuse conférence scientifique et que j'aie l'opportunité de présenter les réalisations de la recherche vietnamienne aux géants de la technologie, aux experts et à la communauté internationale », a déclaré Le Duy Khanh.
Sous la direction du Dr Chau Thanh Duc, chef du département de recherche et développement chez Zalo AI et maître de conférences à l'Université des sciences naturelles (Université nationale de Hô Chi Minh-Ville), ce projet de recherche devrait contribuer de manière significative à l'amélioration des modèles de reconnaissance vocale, en augmentant la précision de la dictée vocale et de la conversion voix-texte sur l'application Zalo.
« La synthèse des recherches très pratiques de Zalo AI en articles scientifiques et leur présentation lors de prestigieuses conférences internationales sont extrêmement significatives. Cela démontre non seulement le savoir-faire des ingénieurs vietnamiens, mais aussi leur volonté de partager leurs expériences et de contribuer au développement de la communauté mondiale de l'IA », a déclaré le Dr Chau Thanh Duc.
Zalo a intégré ces recherches à son application de messagerie fin 2023, ce qui a permis d'améliorer considérablement la précision de la dictée vocale. Cette fonctionnalité permet aux utilisateurs de composer des messages à la voix plutôt qu'au clavier, ce qui représente un gain de temps et une plus grande praticité dans de nombreuses situations. En pratique, la précision de cette fonctionnalité atteint désormais 95 % ; le taux de correction nécessaire après la dictée vocale est passé de 6,4 % à seulement 4,8 %.
Selon les statistiques de Zalo, bien que la fonctionnalité soit encore en phase de test, elle a généré près de 4,5 millions de messages par jour et attiré environ 3,2 millions d'utilisateurs mensuels (données mises à jour en juin 2024).
Depuis ses débuts en 2017, Zalo, entreprise pionnière dans la recherche en intelligence artificielle, a toujours misé sur l'épanouissement de la jeune génération. Aujourd'hui, 31 % des employés de Zalo appartiennent à la génération Z. En 2021, deux autres travaux de recherche de l'équipe d'ingénierie IA de Zalo, portant sur le traitement de la parole, ont été récompensés lors de la Conférence internationale Asie- Pacifique sur l'intelligence artificielle (PRICAI 2021). Il est à noter que les auteurs de ces deux travaux sont de jeunes chercheurs de moins de 30 ans.
Interspeech est une conférence internationale prestigieuse et de longue date sur le traitement de la parole, organisée par l'Association internationale de la communication vocale. Cette année, la conférence, placée sous le thème « La parole et au-delà », se tiendra du 1er au 5 septembre 2024 sur l'île de Kos (Grèce).










Comment (0)