En entrant dans le hall d'attente de l'aéroport, au milieu du brouhaha des personnes revenant d'un voyage d'affaires, Ho Minh Duc s'arrêta quelques secondes lorsqu'il entendit une voix féminine douce et familière lire une annonce sur le système.
Le personnel de Vbee travaille au siège social de l'entreprise à Hanoï - Photo : NVCC
Il sourit, soulagé et heureux comme s'il avait retrouvé un proche. Ce « proche » était l'une des 20 voix d'IA avec lesquelles Duc et l'équipe Vbee avaient travaillé sans relâche pendant des jours et des mois, s'investissant corps et âme dans chaque ligne de voix, soignant chaque nuance pour les rendre plus naturelles et humaines.
Démarrage difficile
Je ne sais pas combien de fois le PDG Ho Minh Duc et la directrice technique Nguyen Thi Thu Trang — les deux fondateurs de la société par actions Vbee Data Solutions and Services — ont éprouvé un tel sentiment de joie et de fierté.
Ils ont rencontré des « connaissances particulières » dans de nombreuses situations différentes : des voix claires diffusées par les haut-parleurs des écoles, des voix chaleureuses dans les bâtiments ou des voix professionnelles provenant des standards téléphoniques automatisés de nombreuses entreprises.
Les créations de Vbee ne sont plus seulement le fruit d'algorithmes et de codes, mais entrent réellement dans la vie, apportant des contributions discrètes mais puissantes à de nombreux domaines.
Des introductions de livres au doublage de films en passant par les annonces automatisées des centres d'appels, Vbee a insufflé une nouvelle vie à la technologie vocale.
En tant que « mère » de la technologie TTS de base, le Dr Nguyen Thi Thu Trang aspire toujours à mettre les produits issus de la technologie de synthèse vocale vietnamienne — technologie à laquelle elle a consacré beaucoup d'efforts depuis sa thèse de doctorat à l'Université Paris 11 — à la disposition de véritables utilisateurs.
Les débuts de VBee ont été difficiles. Malgré sa gratuité pendant les deux premières années, son outil de synthèse vocale (TTS) n'a attiré qu'un petit nombre d'utilisateurs. Mais la COVID-19 a constitué un tournant inattendu.
Face aux mesures strictes de distanciation sociale, des entreprises comme FE Credit, Momo, Viet Credit et Sacombank ont dû trouver des solutions pour rester en contact avec leurs milliers de clients. C'est alors que Vbee a su saisir sa chance : des rappels de paiement aux réponses automatiques, ses produits se sont rapidement imposés comme la solution idéale. À cette époque, les assistants virtuels et les centres d'appels virtuels représentaient jusqu'à 80 % du chiffre d'affaires de Vbee.
Après la pandémie et le ralentissement de l' économie mondiale, Vbee a dû relever un nouveau défi. La vague d'intelligence artificielle générative (GenAI) et l'essor des contenus numériques ont relancé l'outil de synthèse vocale. Aujourd'hui, de TikTok à YouTube en passant par Facebook, les voix de Vbee sont omniprésentes.
« Une grande partie du contenu TTS disponible aujourd'hui est fournie par nos soins », a fièrement déclaré M. Ho Minh Duc. À ce jour, le nombre d'utilisateurs actifs de VBee dépasse les 2 millions et continue de croître régulièrement de 20 % par mois.
Vbee a formé plus de 20 voix d'entreprise de haute qualité, et si l'on compte les voix personnalisées, ils ont créé plus de 200 voix d'IA différentes.
Grâce à la nouvelle technologie de transcription vocale récemment mise au point et testée, une nouvelle voix n'a plus besoin que de 3 minutes de données enregistrées pour être entraînée, au lieu de 4 à plusieurs dizaines d'heures d'enregistrement comme il y a deux ans.
Ho Minh Duc, PDG, et Nguyen Thi Thu Trang, directrice technique, deux fondateurs de Vbee Data Solutions and Services Joint Stock Company - Photo : NVCC
«Nous comprenons mieux le vietnamien»
Dans la course à la technologie de synthèse vocale, le PDG Ho Minh Duc entrevoit un moment où les efforts d'innovation technologique atteindront progressivement leurs limites.
Selon lui, Vbee ne se contente pas de développer une technologie de base pour le traitement de la parole vietnamienne, mais construit également un système technologique capable de comprendre en profondeur la langue vietnamienne, avec toutes ses subtilités, ses intonations et sa culture unique que seuls les vrais Vietnamiens peuvent pleinement comprendre.
Leader du marché de la synthèse vocale au Vietnam, Vbee, sous sa direction, considère son outil comme la référence en matière de lecture vocale par IA pour le vietnamien. Les utilisateurs apprécient non seulement la précision de la synthèse vocale, mais aussi l'émotion qu'elle transmet.
En vietnamien, par exemple, le mot « ruelle » a de nombreux noms différents selon la région, tels que « hem », « kiem », « xec » - chaque mot ayant une nuance différente que l'IA doit comprendre.
Pour ce faire, Vbee a investi massivement dans la collecte d'ensembles de données d'exemple ainsi que dans des systèmes de serveurs puissants pour l'entraînement de l'IA.
« Pour aider l'IA à comprendre et à traiter correctement chaque nuance régionale, nous avons dû constituer d'innombrables ensembles d'échantillons, et le coût du serveur de traitement était également très élevé », a expliqué le PDG Ho Minh Duc.
Le Dr Nguyen Thi Thu Trang a consacré plus de 15 ans à la recherche sur la technologie TTS de VBee afin de décoder les intonations et la grammaire uniques du vietnamien. Pour elle, sa langue maternelle est un univers subtil, riche en nuances expressives.
« Ma langue vietnamienne est très complexe et intéressante ; les tons constituent le point le plus difficile et diffèrent de beaucoup d'autres langues parlées dans le monde. Plus je comprends la langue, plus mon modèle sera précis », a-t-elle expliqué.
Vbee affirme progressivement qu'elle deviendra un élément indispensable des outils et appareils dotés de logiciels intégrés de traitement du langage vietnamien à l'ère technologique.
Dans chaque mot, dans chaque voix, l'équipe Vbee ne se contente pas de rechercher et de développer des technologies, mais s'efforce également de créer une véritable « émotion vietnamienne » dans ses voix d'IA.
Le nom VBee est l'abréviation de l'expression vietnamienne « Soyez vos yeux », née de mon désir initial de créer un outil qui devienne les « yeux » des personnes malvoyantes. Mais face à la tendance actuelle, où beaucoup privilégient l'ouïe à la vue, nous pensons que VBee deviendra également les « yeux » de tous.
Dr Nguyen Thi Thu Trang (Maître de conférences à l'École des technologies de l'information et des communications de l'Université des sciences et technologies de Hanoï, fondatrice et directrice technique de la société Vbee)
Réunion des passionnés de livres audio
Vbee est né de la collaboration entre le Dr Nguyen Thi Thu Trang et la communauté des personnes aveugles. Depuis ses études, elle participe à l'enregistrement de livres audio et au développement d'un lecteur vietnamien destiné aux personnes aveugles.
Ces expériences l'ont incitée à développer un logiciel de lecture vietnamien, précurseur de Vbee. En 2018, elle a fondé Vbee avec M. Ho Minh Duc, un camarade de l'Université des sciences et technologies de Hanoï qui avait travaillé sur le projet Socbay.com et la numérisation de livres audio. Vbee est une entreprise pionnière dans le domaine de la synthèse vocale au Vietnam.
Réalisations exceptionnelles de Vbee
- Premier prix du Qualcomm Vietnam Innovation Challenge 2024
- Prix spécial du Tuoi Tre Start-up Award 2023
- Lauréate du programme d'accélération de startups Grab Venture Ignite 2020
- Premier prix du concours « Talents vietnamiens 2018 », deuxième prix du concours « Talents vietnamiens 2020 »
- Certificat de technologie de base vietnamienne dans le cadre du Programme national de transformation numérique 2025-2030 du ministère de l'Information et des Communications
- Projet lauréat du Vietnam Digital Media Award 2018 et du Vingroup Fund 2019.
Vision régionale
Après avoir consolidé sa position sur le marché vietnamien, Vbee ambitionne de s'étendre à l'Asie du Sud-Est et prévoit de déployer sa technologie TTS dans des pays comme le Laos, la Thaïlande, le Cambodge et les Philippines d'ici 2026.
Selon le Dr Nguyen Thi Thu Trang, les progrès technologiques rapides d'aujourd'hui, avec l'émergence de modèles multilingues, faciliteront le développement d'outils de synthèse vocale pour d'autres langues.
Actuellement, elle effectue des recherches sur les technologies vocales pour le thaï, le chinois et l'anglais, ouvrant ainsi de nouvelles perspectives pour Vbee sur le marché international.
Source : https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm






Comment (0)