När Ho Minh Duc gick in i flygplatsens vänthall, mitt i vimlet av människor som återvände från en affärsresa, pausade han i några sekunder när han hörde en bekant, mild kvinnlig röst läsa upp ett meddelande i systemet.
Vbees personal arbetar på företagets huvudkontor i Hanoi - Foto: NVCC
Han log, kände sig lättad och glad som om han hade träffat en släkting. Den där "släktingen" var en av de 20 AI-röster som Duc och Vbee-teamet hade "ätit och sovit" med i många dagar och månader, och lagt hela sitt hjärta i varje ljudlinje och tagit hand om varje nyans i rösten för att göra dem mer naturliga och mänskliga.
Skakig start
Jag vet inte hur många gånger VD Ho Minh Duc och tekniska chef Nguyen Thi Thu Trang – de två grundarna av Vbee Data Solutions and Services Joint Stock Company – har upplevt en sådan känsla av glädje och stolthet.
De mötte "särskilda bekanta" i många olika situationer: tydliga röster i skolans högtalarsystem, varma röster i byggnader eller professionella röster från de automatiska växlarna i många företag.
Vbees idéer är inte längre bara ett resultat av algoritmer och koder, utan de träder faktiskt in i livet och ger tysta men kraftfulla bidrag till många områden.
Från bokpresentationer och filmdubbning till automatiserade callcentermeddelanden har Vbee blåst nytt liv i rösttekniken.
Som "moder" till den centrala TTS-tekniken strävar Dr. Nguyen Thi Thu Trang alltid efter att föra produkter från vietnamesisk talsyntesteknik – den teknik som hon har ägnat mycket möda åt sedan sin doktorsavhandling vid Paris 11-universitetet – till verkliga användare.
Vbees tidiga dagar var tuffa. Trots att det var gratis de första två åren lockade deras text-till-tal-verktyg (TTS) bara en liten grupp användare. Men sedan blev COVID-19 en oväntad vändpunkt.
Inför strikta regler för social distansering var företag som FE Credit, Momo, Viet Credit, Sacombank ... tvungna att hitta sätt att nå tusentals kunder. Det var då Vbee fick möjligheten: från skuldpåminnelser till automatiska svar blev deras produkter snabbt den optimala lösningen. Vid den tiden stod virtuella assistenter och virtuella callcenter för upp till 80 % av Vbees intäkter.
När pandemin var över och världsekonomin gick ner stod Vbee inför en ny utmaning. Vågen av generativ AI (GenAI) och trender inom digitalt innehåll återupplivade TTS-verktyget. Idag, från TikTok till YouTube och Facebook, dyker Vbees AI-röster upp överallt.
"Mycket av TTS-innehållet idag tillhandahålls av oss", delade Mr. Ho Minh Duc stolt. För närvarande har antalet faktiska användare av Vbee överstigit 2 miljoner, och detta antal ökar fortfarande stadigt med 20 % varje månad.
Vbee har tränat över 20 högkvalitativa företagsröster, och om man räknar med anpassade röster har de skapat över 200 olika AI-röster.
Med den nya rösttranskriptionstekniken som nyligen undersökts och testats behöver en ny röst nu bara 3 minuter inspelad data för att tränas istället för 4 till dussintals timmars inspelning som för två år sedan.
VD Ho Minh Duc och teknikchef Nguyen Thi Thu Trang – två grundare av Vbee Data Solutions and Services Joint Stock Company – Foto: NVCC
"Vi är bättre på att förstå vietnamesiska"
I kapplöpningen om talsyntesteknik ser VD Ho Minh Duc en tidpunkt då tekniska innovationsinsatser gradvis kommer att nå sina gränser.
Enligt honom utvecklar Vbee inte bara kärnteknik för vietnamesisk talbehandling, utan har också byggt ett tekniksystem som kan förstå det vietnamesiska språket på djupet – med alla de finesser, toner och den unika kultur som bara sanna vietnameser kan förstå fullt ut.
Som ledande inom TTS-marknaden i Vietnam anser Vbees två ledare att deras verktyg har blivit standarden för AI-röstläsning för vietnameser. Användare uppskattar inte bara noggrannheten utan känner också "känslan" i varje röst som utvecklats av Vbee.
På vietnamesiska, till exempel, har bara ett ord "alley" många olika namn beroende på region, såsom "hem", "kiem", "xec" - varje ord har en annan nyans som AI behöver förstå.
För att uppnå det har Vbee investerat kraftigt i att samla in exempeldataset samt i kraftfulla serversystem för AI-utbildning.
"För att hjälpa AI att förstå och bearbeta varje regional nyans korrekt var vi tvungna att bygga otaliga exempeluppsättningar, och kostnaden för bearbetningsservern var också mycket hög", delade VD Ho Minh Duc.
Dr. Nguyen Thi Thu Trang har ägnat mer än 15 år åt att forska kring Vbees kärnteknik för TTS för att avkoda vietnamesiskan unika toner och grammatik. För henne är hennes modersmål en subtil värld full av uttrycksfulla nyanser.
"Mitt vietnamesiska språk är väldigt komplext och intressant, tonerna är den svåraste punkten och skiljer sig från många andra populära språk i världen. Ju mer jag förstår språket, desto mer exakt blir min modell", förklarade hon.
Vbee hävdar gradvis att de kommer att bli en oumbärlig del av verktyg och enheter med integrerad programvara för vietnamesisk språkbehandling i den tekniska eran.
I varje ord, varje röst, forskar och utvecklar Vbee-teamet inte bara om teknik utan strävar också efter att skapa en verkligt "vietnamesisk känsla" i sina AI-röster.
Namnet Vbee är en förkortning av frasen "Vietnamese BE your Eyes", vilket kommer från min ursprungliga önskan att bygga ett verktyg som blir "ögonen" för synskadade. Men i den nuvarande utvecklingstrenden, när många vill övergå till att lyssna mer än att se, tror vi att Vbee också kommer att bli allas "ögon".
Dr. Nguyen Thi Thu Trang (föreläsare vid Institutionen för informationsteknologi och kommunikation, Hanois universitet för vetenskap och teknik, grundare och teknikchef för Vbee Company)
Möte för ljudboksentusiaster
Vbee föddes ur relationen mellan Dr. Nguyen Thi Thu Trang och blinda. Ända sedan studietiden har hon spelat in ljudböcker och utvecklat en vietnamesisk uppläsare för att stödja blinda.
Dessa erfarenheter inspirerade henne att utveckla vietnamesisk läsprogramvara – föregångaren till Vbee. År 2018 grundade hon och Mr. Ho Minh Duc – en klasskamrat vid Hanois universitet för vetenskap och teknologi med erfarenhet från Socbay.com-projektet och digitalisering av ljudböcker – Vbee, en pionjär inom text-till-tal-teknik i Vietnam.
Vbees enastående prestationer
- Första pris i Qualcomm Vietnam Innovation Challenge 2024
- Specialpris från Tuoi Tre Start-up Award 2023
- Vinnande startup i Grab Venture Ignite 2020 Startup Acceleration Program
- Första pris i Vietnamesisk talang 2018, andra pris i Vietnamesisk talang 2020
- Certifikat för vietnamesisk kärnteknik i det nationella programmet för digital transformation 2025-2030 från ministeriet för information och kommunikation
- Vinnare av Vietnam Digital Media Award 2018 och Vingroup Fund 2019.
Regional vision
Efter att ha befäst sin position på den vietnamesiska marknaden siktar Vbee på att expandera till Sydostasien med planer på att lansera sin TTS-teknik i länder som Laos, Thailand, Kambodja och Filippinerna senast 2026.
Enligt Dr. Nguyen Thi Thu Trang kommer dagens snabba teknikutveckling med framväxten av flerspråkiga modeller att göra det enklare att utveckla TTS-verktyg för andra språk.
För närvarande forskar hon på talteknik för thailändska, kinesiska och engelska, vilket öppnar nya steg för Vbee på den internationella marknaden.
[annons_2]
Källa: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Kommentar (0)