A repülőtér várócsarnokába lépve, az üzleti útról visszatérő emberek nyüzsgésében, Ho Minh Duc néhány másodpercre megállt, amikor egy ismerős, szelíd női hangot hallott, amint egy bejelentést olvas fel a rendszerben.
A Vbee munkatársai a hanoi székhelyen dolgoznak - Fotó: NVCC
Mosolygott, megkönnyebbültnek és boldognak érezte magát, mintha egy rokonnal találkozott volna. Ez a „rokon” egyike volt annak a 20 mesterséges intelligencia által vezérelt hangnak, amelyekkel Duc és a Vbee csapata napokig, hónapokig „együtt evett és aludt”, teljes szívüket beleadva minden egyes hangsorba, ügyelve a hang minden árnyalatára, hogy természetesebbé és emberibbé tegye azt.
Zökkenőmentes indítás
Nem tudom, hányszor élt át már Ho Minh Duc vezérigazgató és Nguyen Thi Thu Trang műszaki igazgató – a Vbee Data Solutions and Services Joint Stock Company két alapítója – ilyen örömöt és büszkeséget.
Sokféle helyzetben találkoztak „különleges ismerősökkel”: tiszta hangok az iskolai hangszórókban, meleg hangok épületekben, vagy professzionális hangok számos vállalkozás automatikus kapcsolótábláiból.
A Vbee agyszüleményei már nem csupán algoritmusok és kódok eredményei, hanem ténylegesen életre kelnek, csendes, de erőteljes hozzájárulást nyújtva számos területhez.
A könyvbemutatóktól a filmszinkronon át az automatizált call centeres bejelentésekig a Vbee új életet lehelt a hangtechnológiába.
A TTS-technológia „anyjaként” Dr. Nguyen Thi Thu Trang mindig arra törekszik, hogy a vietnami beszédszintézis-technológia – amelyre a Paris 11 Egyetemen írt doktori disszertációja óta rengeteg energiát fordított – termékeit valódi felhasználókhoz juttassa el.
A Vbee kezdeti napjai nehézkesek voltak. Annak ellenére, hogy az első két évben ingyenes volt, a szövegfelolvasó (TTS) eszköze csak kis felhasználói csoportot vonzott. Aztán a COVID-19 váratlan fordulópontot hozott.
A szigorú társadalmi távolságtartási szabályozások miatt olyan vállalkozásoknak, mint az FE Credit, a Momo, a Viet Credit, a Sacombank ..., meg kellett találniuk a módját, hogy több ezer ügyfelet érjenek el. Ekkor kapott lehetőséget a Vbee: az adósság-emlékeztetőktől az automatikus válaszokig termékeik azonnal optimális megoldássá váltak. Abban az időben a virtuális asszisztensek és a virtuális call centerek a Vbee bevételének akár 80%-át is tették ki.
Amikor a világjárvány elmúlt és a világgazdaság visszaesett, a Vbee új kihívással nézett szembe. A generatív mesterséges intelligencia (GenAI) hulláma és a digitális tartalomtrendek felélesztették a TTS eszközt. Ma a TikToktól a YouTube-on át a Facebookig a Vbee mesterséges intelligencia hangjai mindenhol megjelennek.
„A mai TTS-tartalom nagy részét mi biztosítjuk” – mondta büszkén Ho Minh Duc úr. A Vbee tényleges felhasználóinak száma jelenleg meghaladja a 2 milliót, és ez a szám továbbra is folyamatosan növekszik, havonta 20%-kal.
A Vbee több mint 20 kiváló minőségű vállalati hangot képzett ki, és ha az egyedi hangokat is beleszámítjuk, több mint 200 különböző mesterséges intelligencia által vezérelt hangot hoztak létre.
Az új, nemrégiben kutatott és tesztelt hangátírási technológiának köszönhetően egy új hang betanításához ma már mindössze 3 percnyi rögzített adatra van szükség a két évvel ezelőtti 4 vagy akár több tucat óra felvétel helyett.
Ho Minh Duc vezérigazgató és Nguyen Thi Thu Trang technológiai igazgató - a Vbee Data Solutions and Services Joint Stock Company két alapítója - Fotó: NVCC
„Jobban értjük a vietnamit”
A beszédszintézis technológiájáért folytatott versenyben Ho Minh Duc vezérigazgató szerint eljön az idő, amikor a technológiai innovációs erőfeszítések fokozatosan elérik a határaikat.
Elmondása szerint a Vbee nemcsak a vietnami beszéd feldolgozásának alapvető technológiáját fejleszti, hanem egy olyan technológiai rendszert is épít, amely képes mélyrehatóan megérteni a vietnami nyelvet – minden olyan finomsággal, hangvétellel és egyedi kultúrával, amelyet csak az igazi vietnami emberek értenek meg teljes mértékben.
A vietnami TTS piac vezető vállalataként a Vbee két vezetője úgy véli, hogy eszközük a vietnami nyelvű mesterséges intelligencia alapú hangfelolvasás szabványává vált. A felhasználók nemcsak a pontosságot értékelik, hanem minden egyes, a Vbee által kifejlesztett hangban érezni is tudják az „érzelmet”.
Például vietnamiul egyetlen szónak, az „alley”-nek, sok különböző neve van a régiótól függően, például „hem”, „kiem”, „xec” – minden szónak más árnyalata van, amelyet a mesterséges intelligenciának meg kell értenie.
Ennek elérése érdekében a Vbee jelentős összegeket fektetett be minta adatkészletek gyűjtésére, valamint nagy teljesítményű szerverrendszerekbe a mesterséges intelligencia betanításához.
„Ahhoz, hogy a mesterséges intelligencia megértse és helyesen feldolgozza az egyes regionális árnyalatokat, számtalan mintakészletet kellett létrehoznunk, és a feldolgozó szerver költsége is nagyon magas volt” – osztotta meg Ho Minh Duc vezérigazgató.
Dr. Nguyen Thi Thu Trang több mint 15 évet töltött a Vbee alapvető TTS-technológiájának kutatásával, hogy dekódolja a vietnami nyelv egyedi hangvételét és nyelvtanát. Számára az anyanyelv egy finom világ, tele kifejező árnyalatokkal.
„A vietnami nyelvem nagyon összetett és érdekes, a hangvétel a legnehezebb pont, és különbözik a világ számos más népszerű nyelvétől. Minél jobban megértem a nyelvet, annál pontosabb lesz a modellem” – magyarázta.
A VBee fokozatosan kijelenti, hogy nélkülözhetetlen részét képezik majd a technológiai korszakban az integrált vietnami nyelvfeldolgozó szoftverrel rendelkező eszközöknek és eszközöknek.
A Vbee csapata minden egyes szóban, minden egyes hangban nemcsak technológiát kutat és fejleszt, hanem arra is törekszik, hogy valóban "vietnami érzelmeket" teremtsen mesterséges intelligencia által vezérelt hangjaiban.
A Vbee név a „Vietnamese BE your Eyes” (vietnamiul „Légy a szemed”) kifejezés rövidítése, ami abból a kezdeti vágyamból ered, hogy egy olyan eszközt építsek, amely a látássérültek „szemévé” válhat. De a jelenlegi fejlesztési trendben, amikor sokan inkább a hallásra, mint a látásra szeretnének áttérni, úgy gondoljuk, hogy a Vbee mindenki „szemévé” is válhat.
Dr. Nguyen Thi Thu Trang (a Hanoi Tudományos és Technológiai Egyetem Információs Technológiai és Kommunikációs Karának előadója, a Vbee Company alapítója és technológiai igazgatója)
Hangoskönyv rajongók találkozója
A Vbee Dr. Nguyen Thi Thu Trang és a vak közösség kapcsolatából született. Diákkora óta hangoskönyvek felvételében és vietnami olvasókönyvek fejlesztésében vesz részt a vakok támogatása érdekében.
Ezek a tapasztalatok inspirálták arra, hogy vietnami olvasószoftvert fejlesszen ki – a Vbee elődjét. 2018-ban Ho Minh Duc úrral – a Hanoi Tudományos és Technológiai Egyetem évfolyamtársával, aki tapasztalattal rendelkezik a Socbay.com projektben és a hangoskönyvek digitalizálásában – megalapították a Vbee-t, amely úttörő szerepet játszik a szövegfelolvasó technológiák terén Vietnamban.
A Vbee kiemelkedő eredményei
- A Qualcomm Vietnam Innovation Challenge 2024 első díja
- A Tuoi Tre Start-up Díj 2023 különdíja
- Nyertes startup a Grab Venture Ignite 2020 Startup Gyorsítóprogramban
- 2018-as Vietnamese Talent verseny első díja, 2020-as Vietnamese Talent verseny második díja
- Vietnámi Alaptechnológiai Tanúsítvány az Információs és Kommunikációs Minisztérium 2025-2030-as Nemzeti Digitális Transzformációs Programjában
- Nyertes projekt a 2018-as vietnami digitális média díjon és a 2019-es Vingroup Alapítványon.
Regionális jövőkép
Miután megerősítette pozícióját a vietnami piacon, a Vbee Délkelet-Ázsiára kíván terjeszkedni, és tervei szerint 2026-ra olyan országokba is eljuttatja TTS technológiáját, mint Laosz, Thaiföld, Kambodzsa és a Fülöp-szigetek.
Dr. Nguyen Thi Thu Trang szerint a technológia mai gyors fejlődése a többnyelvű modellek megjelenésével megkönnyíti majd a TTS eszközök fejlesztését más nyelvekhez.
Jelenleg a thai, kínai és angol nyelvű beszédtechnológiákat kutatja, új lépéseket téve a VBee számára a nemzetközi piacon.
[hirdetés_2]
Forrás: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Hozzászólás (0)