Le concours de traitement de la parole et de la langue vietnamienne (VLSP) s'inscrit dans le cadre de la Conférence internationale annuelle sur le traitement de la parole et de la langue vietnamienne, organisée par le Club VLSP, une branche de l'Association vietnamienne des technologies de l'information. VLSP 2023 organise dix concours sur le traitement de la parole et du texte, réunissant des chercheurs, des experts et des équipes de développement technologique de premier plan.
Bien qu'il s'agisse de la quatrième fois que Viettel AI participait au concours et qu'il ait déjà gagné trois fois auparavant, les ingénieurs de Viettel ont encore rencontré de nombreuses difficultés en raison des changements dans la structure des catégories du concours.
Plus précisément, par rapport à l'année dernière, les catégories Reconnaissance vocale et Reconnaissance des émotions ont été fusionnées cette année. Les équipes doivent résoudre deux problèmes simultanément pour assurer la reconnaissance du texte et de l'émotion de la phrase ; la charge de travail et la difficulté ont doublé.
Exploitez toutes les données, qu'elles soient de faible ou de haute qualité
Outre la modification de la structure des catégories, l'examen de cette année se concentre également sur la création de modèles ex nihilo avec des conditions de données limitées, notamment des données brutes, non étiquetées et de faible qualité. L'examen propose quatre groupes de données de qualité et de forme différentes : des données audio non étiquetées uniquement, des données audio et texte uniquement, des données émotionnelles et audio de haute qualité avec des étiquettes standard, et des données émotionnelles et audio de faible qualité. Chaque ensemble de données est clairement défini pour répondre à chaque objectif et catégorie d'examen, avec un total de plus de 300 heures consacrées à l'ensemble des ensembles de données. C'est un nombre relativement modeste comparé aux ensembles de données standard pour l'entraînement à la reconnaissance vocale, qui nécessitent généralement entre 1 000 et 2 000 heures, voire plus.
Chaque équipe avait moins de 2 mois pour terminer et soumettre son travail, mais en réalité, le temps réellement consacré à la recherche de solutions était bien moindre en raison du manque de ressources.
« Cette année, Viettel AI a consacré beaucoup de ressources d'infrastructure informatique à la recherche de nouvelles technologies ainsi qu'au développement de produits, alors que la reconnaissance vocale est une technologie qui nécessite de très grandes ressources matérielles », a partagé M. Dang Dinh Son - Ingénieur en intelligence artificielle, Plateforme d'assistant virtuel, Viettel AI.
Face au faible volume et à la faible qualité des données, l'équipe de recherche a immédiatement adopté la position consistant à « exploiter toutes les données, quelle que soit leur qualité ». Pour ce faire, il est nécessaire de mettre en place un cycle d'apprentissage permettant de traiter toutes les données et d'utiliser un seul modèle pour résoudre de nombreux problèmes différents.
Les résultats d'une maîtrise technologique pionnière
Dans un contexte de manque de données et de manque de ressources, l’équipe de recherche a décidé de construire un processus de traitement simple, pas massif, mais surtout, affiné jusqu’au moindre détail.
Les ingénieurs de Viettel AI ont soigneusement étudié les dernières recherches issues de conférences et de revues internationales de premier plan afin de trouver une approche. En combinant des méthodes de traitement de données éprouvées pour entraîner le modèle, l'équipe de recherche a élaboré un cycle d'apprentissage permettant de traiter toutes les données disponibles. Ce cycle comprend trois étapes : la construction d'un modèle pré-entraîné pour décrire les caractéristiques vocales sans étiquettes, l'affinement du modèle pré-entraîné pour deux problèmes : la reconnaissance vocale et la reconnaissance des émotions, et l'inférence.
« L'expérience acquise lors de la résolution de problèmes de manque de données lors du développement et du déploiement de produits précédents a également grandement aidé l'équipe à trouver une méthode de prise de décision. Au contraire, les connaissances et les résultats obtenus lors du test sont immédiatement applicables aux produits Viettel AI. Le processus de travail pendant le test s'est donc déroulé sans problème », a déclaré M. Bui Tien Dat, ingénieur plateforme assistant virtuel chez Viettel AI.
En conséquence, Viettel AI a non seulement remporté le premier prix dans les catégories Reconnaissance vocale et Reconnaissance des émotions vocales, mais a également obtenu un score impressionnant de 89,18 % (les équipes suivantes étaient respectivement de 83,40 % et 78,45 %).
M. Son a déclaré que le facteur clé réside dans le modèle de traitement de la parole spécifiquement pour le vietnamien que Viettel AI a développé depuis longtemps.
« Au lieu d'utiliser des modèles et des instructions issus de résultats de recherche disponibles, Viettel AI a choisi de construire et de développer son propre modèle de traitement de la parole en vietnamien. Ce modèle est constamment mis à jour, optimisé et gagne en efficacité », a déclaré M. Son.
Cette solution d'IA de Viettel ne se contente pas de concurrencer la concurrence : elle permettra d'améliorer les solutions de standard virtuel et l'assistant virtuel de Viettel, en permettant d'identifier plus précisément les émotions des clients lors des conversations, et ainsi de leur fournir un feedback ou de choisir les nuances de mots appropriées. Ainsi, les conversations entre humains et IA deviendront plus naturelles, améliorant ainsi l'expérience utilisateur. De nombreuses nouvelles applications pour le service client sont également envisageables, comme la création d'un système permettant d'identifier automatiquement les réclamations des clients et les réclamations adressées au standard pour un traitement rapide ou l'exploitation des informations.
Le représentant de l'unité a déclaré que Viettel AI continuera à développer sa technologie, à mettre constamment à niveau ses produits pour augmenter la précision, à améliorer l'expérience utilisateur et l'efficacité des produits.
Quoc Tuan
Source
Comment (0)