Da Ho Minh Duc kom inn i ventehallen på flyplassen, midt i all mas og kjas av folk som kom tilbake fra forretningsreise, stoppet han opp i noen sekunder da han hørte en kjent, mild kvinnestemme lese en kunngjøring på systemet.
Vbees ansatte jobber på selskapets hovedkvarter i Hanoi - Foto: NVCC
Han smilte, lettet og glad, som om han hadde møtt en slektning. Denne «slektningen» var en av de 20 AI-stemmene som Duc og Vbee-teamet hadde «spist og sovet» med i mange dager og måneder, og lagt hele sitt hjerte i hver eneste lydlinje og tatt vare på hver eneste nyanse i stemmen for å gjøre dem mer naturlige og menneskelige.
Humpete oppstart
Jeg vet ikke hvor mange ganger administrerende direktør Ho Minh Duc og teknologidirektør Nguyen Thi Thu Trang – de to grunnleggerne av Vbee Data Solutions and Services Joint Stock Company – har opplevd en slik følelse av glede og stolthet.
De møtte «spesielle bekjente» i mange forskjellige situasjoner: klare stemmer på skolens høyttaleranlegg, varme stemmer i bygninger eller profesjonelle stemmer fra de automatiske sentralbordene i mange bedrifter.
Vbees hjernebarn er ikke lenger bare et resultat av algoritmer og koder, men kommer faktisk til live og gir stille, men kraftige bidrag til mange felt.
Fra bokpresentasjoner og filmdubbing til automatiserte kunngjøringer i kundesenteret har Vbee pustet nytt liv inn i taleteknologi.
Som «moren» til kjerne-TTS-teknologien, streber Dr. Nguyen Thi Thu Trang alltid etter å bringe produkter fra vietnamesisk talesynteseteknologi – teknologien hun har viet mye arbeid til siden doktoravhandlingen sin ved Paris 11-universitetet – til virkelige brukere.
Vbees tidlige dager var vanskelige. Til tross for at det var gratis de første to årene, tiltrakk tekst-til-tale-verktøyet (TTS) seg bare en liten gruppe brukere. Men så ble COVID-19 et uventet vendepunkt.
Stilt overfor strenge regler for sosial distansering måtte bedrifter som FE Credit, Momo, Viet Credit, Sacombank ... finne måter å nå tusenvis av kunder på. Det var da Vbee fikk muligheten: fra gjeldspåminnelser til automatiske svar ble produktene deres raskt den optimale løsningen. På den tiden stod virtuelle assistenter og virtuelle callsentre for opptil 80 % av Vbees inntekter.
Da pandemien var over og verdensøkonomien gikk ned, sto Vbee overfor en ny utfordring. Bølgen av generativ AI (GenAI) og digitale innholdstrender gjenopplivet TTS-verktøyet. I dag, fra TikTok til YouTube og Facebook, dukker Vbees AI-stemmer opp overalt.
«Mye av TTS-innholdet i dag leveres av oss», delte Ho Minh Duc stolt. For tiden har antallet faktiske brukere av Vbee oversteget 2 millioner, og dette tallet øker fortsatt jevnt med 20 % hver måned.
Vbee har trent over 20 bedriftsstemmer av høy kvalitet, og hvis du teller med tilpassede stemmer, har de laget over 200 forskjellige AI-stemmer.
Med den nye stemmetranskripsjonsteknologien som nylig ble forsket på og testet, trenger en ny stemme nå bare 3 minutter med innspilte data for å trenes, i stedet for 4 til dusinvis av timer med opptak som for to år siden.
Administrerende direktør Ho Minh Duc og teknologidirektør Nguyen Thi Thu Trang – to grunnleggere av Vbee Data Solutions and Services Joint Stock Company – Foto: NVCC
«Vi er bedre til å forstå vietnamesere»
I kappløpet om talesynteseteknologi ser administrerende direktør Ho Minh Duc en tid der teknologisk innovasjonsinnsats gradvis vil nå sine grenser.
Ifølge ham utvikler Vbee ikke bare kjerneteknologi for vietnamesisk talebehandling, men har også bygget et teknologisystem som er i stand til å forstå det vietnamesiske språket i dybden – med alle finessene, tonene og den unike kulturen som bare ekte vietnamesere fullt ut kan forstå.
Som en leder i TTS-markedet i Vietnam, mener Vbees to ledere at verktøyet deres har blitt standarden for AI-stemmelesing for vietnamesere. Brukerne setter ikke bare pris på nøyaktigheten, men føler også «følelsen» i hver stemme utviklet av Vbee.
På vietnamesisk, for eksempel, har bare ett ord, «alley», mange forskjellige navn avhengig av regionen, som «hem», «kiem» og «xec» – hvert ord har en annen nyanse som AI må forstå.
For å oppnå dette har Vbee investert tungt i å samle inn eksempeldatasett, samt i kraftige serversystemer for AI-opplæring.
«For å hjelpe AI med å forstå og behandle hver regionale nyanse riktig, måtte vi bygge utallige eksempelsett, og kostnaden for behandlingsserveren var også veldig høy», delte administrerende direktør Ho Minh Duc.
Dr. Nguyen Thi Thu Trang har brukt mer enn 15 år på å forske på Vbees kjerne-TTS-teknologi for å dekode de unike tonene og grammatikken i vietnamesisk. For henne er morsmålet hennes en subtil verden full av uttrykksfulle nyanser.
«Mitt vietnamesiske språk er veldig komplekst og interessant, tonene er det vanskeligste punktet og annerledes enn mange andre populære språk i verden. Jo mer jeg forstår språket, desto mer nøyaktig blir modellen min», forklarte hun.
Vbee hevder gradvis at de vil bli en uunnværlig del av verktøy og enheter med integrert programvare for vietnamesisk språkbehandling i teknologiens tidsalder.
I hvert ord, hver stemme, forsker og utvikler ikke bare Vbee-teamet teknologi, men streber også etter å skape en ekte «vietnamesisk følelse» i sine AI-stemmer.
Navnet Vbee er en forkortelse av uttrykket «Vietnamese BE your Eyes», som kommer fra mitt opprinnelige ønske om å bygge et verktøy som blir «øynene» for synshemmede. Men i den nåværende utviklingstrenden, når mange ønsker å gå over til å lytte mer enn å se, tror vi at Vbee også vil bli «øynene» til alle.
Dr. Nguyen Thi Thu Trang (foreleser ved Institutt for informasjonsteknologi og kommunikasjon, Hanoi University of Science and Technology, grunnlegger og teknologidirektør i Vbee Company)
Møte for lydbokentusiaster
Vbee ble født ut av forholdet mellom Dr. Nguyen Thi Thu Trang og blindesamfunnet. Helt siden studietiden har hun deltatt i innspilling av lydbøker og utvikling av en vietnamesisk lesebok for å støtte blinde.
Disse erfaringene inspirerte henne til å utvikle vietnamesisk leseprogramvare – forgjengeren til Vbee. I 2018 grunnla hun og Mr. Ho Minh Duc – en klassekamerat ved Hanoi University of Science and Technology med erfaring fra Socbay.com-prosjektet og digitalisering av lydbøker – Vbee, en pioner innen tekst-til-tale i Vietnam.
Vbees fremragende prestasjoner
- Førstepremie i Qualcomm Vietnam Innovation Challenge 2024
- Spesialpris fra Tuoi Tre Start-up Award 2023
- Vinner av oppstartsbedriften i Grab Venture Ignite 2020 Startup Acceleration Program
- Førstepremie i Vietnamesisk Talent 2018, andrepremie i Vietnamesisk Talent 2020
- Sertifikat for vietnamesisk kjerneteknologi i det nasjonale programmet for digital transformasjon 2025–2030 fra departementet for informasjon og kommunikasjon
- Vinnerprosjekt i Vietnam Digital Media Award 2018 og Vingroup Fund 2019.
Regional visjon
Etter å ha befestet sin posisjon i det vietnamesiske markedet, sikter Vbee mot å ekspandere til Sørøst-Asia med planer om å bringe TTS-teknologien sin til land som Laos, Thailand, Kambodsja og Filippinene innen 2026.
Ifølge Dr. Nguyen Thi Thu Trang vil dagens raske teknologiske utvikling med fremveksten av flerspråklige modeller gjøre det enklere å utvikle TTS-verktøy for andre språk.
For tiden forsker hun på taleteknologier for thai, kinesisk og engelsk, noe som åpner nye steg for Vbee i det internasjonale markedet.
[annonse_2]
Kilde: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Kommentar (0)