Toen Ho Minh Duc de wachtruimte van het vliegveld binnenkwam, bleef hij even stilstaan, terwijl er overal mensen op de terugreis waren. Hij hoorde een bekende, vriendelijke vrouwenstem een mededeling op het systeem voorlezen.
Het personeel van Vbee werkt op het hoofdkantoor van het bedrijf in Hanoi - Foto: NVCC
Hij glimlachte en voelde zich opgelucht en gelukkig, alsof hij een familielid had ontmoet. Dat "familielid" was een van de twintig AI-stemmen waarmee Duc en het Vbee-team dagen en maandenlang hadden "gegeten en geslapen", waarbij ze hun hele hart in elke klanklijn hadden gestoken en elke nuance van de stem hadden verzorgd om ze natuurlijker en menselijker te laten klinken.
Hobbelige start
Ik weet niet hoe vaak CEO Ho Minh Duc en CTO Nguyen Thi Thu Trang - de twee oprichters van Vbee Data Solutions and Services Joint Stock Company - zo'n gevoel van vreugde en trots hebben ervaren.
Ze ontmoetten 'bijzondere kennissen' in allerlei situaties: heldere stemmen via de luidsprekersystemen van scholen, warme stemmen in gebouwen of professionele stemmen via de automatische telefooncentrales van vele bedrijven.
De geesteskinderen van Vbee zijn niet langer alleen het resultaat van algoritmes en codes, maar komen daadwerkelijk tot leven en leveren in stilte maar krachtige bijdragen aan vele gebieden.
Van boekinleidingen en nasynchronisatie van films tot geautomatiseerde callcenteraankondigingen: Vbee heeft spraaktechnologie nieuw leven ingeblazen.
Als de "moeder" van de belangrijkste TTS-technologie streeft Dr. Nguyen Thi Thu Trang er altijd naar om producten van Vietnamese spraaksynthesetechnologie - de technologie waar ze sinds haar doctoraalscriptie aan de Universiteit Parijs 11 veel moeite in heeft gestoken - beschikbaar te maken voor echte gebruikers.
De beginjaren van Vbee waren hobbelig. Hoewel de eerste twee jaar gratis was, trok de tekst-naar-spraak (TTS)-tool slechts een kleine groep gebruikers. Maar toen zorgde COVID-19 voor een onverwacht keerpunt.
Geconfronteerd met de strenge regels rond social distancing moesten bedrijven zoals FE Credit, Momo, Viet Credit, Sacombank ... manieren vinden om duizenden klanten te bereiken. Toen kreeg Vbee de kans: van schuldherinneringen tot automatische antwoorden, hun producten bleken al snel de optimale oplossing. In die tijd waren virtuele assistenten en virtuele callcenters goed voor maar liefst 80% van de omzet van Vbee.
Toen de pandemie voorbij was en de wereldeconomie instortte, stond Vbee voor een nieuwe uitdaging. De golf van generatieve AI (GenAI) en digitale contenttrends bracht de TTS-tool weer tot leven. Vandaag de dag, van TikTok tot YouTube en Facebook, zijn de AI-stemmen van Vbee overal te vinden.
"Veel van de TTS-content wordt tegenwoordig door ons geleverd", vertelde de heer Ho Minh Duc trots. Momenteel heeft het aantal daadwerkelijke gebruikers van Vbee de 2 miljoen overschreden, en dit aantal neemt nog steeds gestaag met 20% per maand toe.
Vbee heeft meer dan 20 hoogwaardige bedrijfsstemmen getraind en als je de aangepaste stemmen meetelt, hebben ze meer dan 200 verschillende AI-stemmen gecreëerd.
Dankzij de nieuwe technologie voor stemtranscriptie die onlangs is onderzocht en getest, heeft een nieuwe stem nu nog maar 3 minuten aan opnamedata nodig om te trainen, in plaats van de 4 tot tientallen uren aan opnames die twee jaar geleden nodig waren.
CEO Ho Minh Duc en Chief Technology Officer Nguyen Thi Thu Trang - twee oprichters van Vbee Data Solutions and Services Joint Stock Company - Foto: NVCC
"Wij zijn beter in het verstaan van Vietnamees"
CEO Ho Minh Duc voorziet dat er een moment komt waarop technologische innovaties hun grenzen bereiken in de race om spraaksynthesetechnologie.
Volgens hem ontwikkelt Vbee niet alleen kerntechnologie voor Vietnamese spraakverwerking, maar heeft het bedrijf ook een technologisch systeem gebouwd dat de Vietnamese taal diepgaand kan begrijpen - met alle subtiliteiten, tonen en unieke cultuur die alleen echte Vietnamezen volledig kunnen begrijpen.
Als leider in de TTS-markt in Vietnam geloven de twee leiders van Vbee dat hun tool de standaard is geworden voor AI-spraakherkenning voor Vietnamezen. Gebruikers waarderen niet alleen de nauwkeurigheid, maar voelen ook de "emotie" in elke stem die Vbee ontwikkelt.
In het Vietnamees heeft bijvoorbeeld één woord, "steegje", meerdere namen, afhankelijk van de regio. Bijvoorbeeld "hem", "kiem", "xec". Elk woord heeft een andere nuance die AI moet begrijpen.
Om dat te realiseren, heeft Vbee flink geïnvesteerd in het verzamelen van voorbeelddatasets en in krachtige serversystemen voor AI-training.
"Om AI te helpen elke regionale nuance correct te begrijpen en verwerken, moesten we talloze steekproeven maken. Bovendien waren de kosten van de verwerkingsserver erg hoog", aldus CEO Ho Minh Duc.
Dr. Nguyen Thi Thu Trang heeft meer dan 15 jaar onderzoek gedaan naar de kern-TTS-technologie van Vbee om de unieke tonen en grammatica van het Vietnamees te ontcijferen. Voor haar is haar moedertaal een subtiele wereld vol expressieve nuances.
"Mijn Vietnamese taal is erg complex en interessant. De tonen vormen het moeilijkste punt en verschillen van veel andere populaire talen ter wereld. Hoe beter ik de taal begrijp, hoe nauwkeuriger mijn model zal zijn", legde ze uit.
Vbee benadrukt steeds meer dat ze een onmisbaar onderdeel zullen zijn van hulpmiddelen en apparaten met geïntegreerde software voor de verwerking van de Vietnamese taal in het technologische tijdperk.
In elk woord, elke stem onderzoekt en ontwikkelt het Vbee-team niet alleen technologie, maar streeft er ook naar om een echte "Vietnamese emotie" te creëren in hun AI-stemmen.
De naam Vbee is een afkorting van de zin "Vietnamese BE your Eyes", wat voortkomt uit mijn oorspronkelijke wens om een hulpmiddel te ontwikkelen dat de "ogen" wordt voor slechtzienden. Maar in de huidige ontwikkelingstrend, waarin veel mensen meer willen luisteren dan zien, geloven wij dat Vbee ook de "ogen" van iedereen zal worden.
Dr. Nguyen Thi Thu Trang (docent aan de School of Information Technology and Communications, Hanoi University of Science and Technology, oprichter en technisch directeur van Vbee Company)
Bijeenkomst voor luisterboekliefhebbers
Vbee is ontstaan uit de relatie tussen Dr. Nguyen Thi Thu Trang en de blindengemeenschap. Sinds haar studententijd is ze betrokken bij het opnemen van audioboeken en het ontwikkelen van een Vietnamese reader ter ondersteuning van blinden.
Deze ervaringen inspireerden haar tot de ontwikkeling van Vietnamese voorleessoftware – de voorloper van Vbee. In 2018 richtten zij en de heer Ho Minh Duc – een studiegenoot aan de Universiteit voor Wetenschap en Technologie van Hanoi met ervaring in het Socbay.com-project en het digitaliseren van audioboeken – Vbee op, een pionier op het gebied van tekst-naar-spraak in Vietnam.
Vbee's uitstekende prestaties
- Eerste prijs van de Qualcomm Vietnam Innovation Challenge 2024
- Speciale prijs van de Tuoi Tre Start-up Award 2023
- Winnende start-up in het Grab Venture Ignite 2020 Startup Acceleration Program
- Eerste prijs van Vietnamees Talent 2018, tweede prijs van Vietnamees Talent 2020
- Certificaat van Vietnamese kerntechnologie in het nationale digitale transformatieprogramma 2025-2030 van het ministerie van Informatie en Communicatie
- Winnaar van de Vietnam Digital Media Award 2018 en het Vingroup Fund 2019.
Regionale visie
Nu Vbee zijn positie op de Vietnamese markt heeft bevestigd, wil het bedrijf uitbreiden naar Zuidoost-Azië. Tegen 2026 wil het bedrijf zijn TTS-technologie naar landen als Laos, Thailand, Cambodja en de Filipijnen brengen.
Volgens Dr. Nguyen Thi Thu Trang zal de snelle vooruitgang van de technologie met de opkomst van meertalige modellen het gemakkelijker maken om TTS-hulpmiddelen voor andere talen te ontwikkelen.
Momenteel doet ze onderzoek naar spraaktechnologieën voor het Thais, Chinees en Engels, waarmee ze voor Vbee nieuwe stappen zet op de internationale markt.
Bron: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Reactie (0)