Le Duy Khanh - a Zalo AI "GenZ" mérnöke - a valós idejű beszédfelismerő modellek (Streaming Automatic Speech Recognition) pontosságának növelését célzó kutatási munkáját először a 2024 szeptemberében Görögországban megrendezésre kerülő Nemzetközi Tudományos Konferencián fogják bejelenteni.
A 2000-ben született Zalo mesterséges intelligencia mérnökének „ A folyamatos beszédfelismerés fejlesztése időeltolásos kontextuális figyelemmel és dinamikus jobb oldali kontextusmaszkolással ” című kutatási cikke szinte tökéletes pontszámot – 11/12 pontot – ért el , sikeresen teljesítve a szigorú bírálati kört, ahol több mint 2000 résztvevő dolgozatot mutattak be az Interspeech Konferencián szóbeli előadás formájában.
„ Nagyon büszke vagyok arra, hogy első tudományos cikkemet egy rangos tudományos konferencia ismerte el, és lehetőségem van bemutatni Vietnam kutatási eredményeit a nagy technológiai vállalatoknak, a szakértőknek és a nemzetközi közösségnek ” – osztotta meg Le Duy Khanh.
Dr. Chau Thanh Duc, a Zalo AI Kutatási és Fejlesztési Tanszékének vezetője és a Ho Si Minh-városi Nemzeti Egyetem Természettudományi Egyetemének előadója irányításával ez a kutatási projekt várhatóan jelentősen hozzájárul a beszédfelismerő modellek korszerűsítéséhez, a hangdiktálás és a hangból szöveggé alakítás pontosságának növeléséhez a Zalo alkalmazásban.
„ A Zalo AI rendkívül gyakorlatias kutatásainak tudományos cikkekké szintetizálása és rangos nemzetközi konferenciákon való bemutatása rendkívül jelentőségteljes. Ez nemcsak a vietnami mérnökök képességeit bizonyítja, hanem a tapasztalatok megosztására és a globális MI-közösség fejlődéséhez való hozzájárulás iránti vágyukat is” – mondta Dr. Chau Thanh Duc.
A Zalo korábban, 2023 végétől integrálta ezt a kutatást üzenetküldő alkalmazásába, ami jelentősen javította a „hangüzenet-írás” funkció pontosságát. Ez a funkció lehetővé teszi a felhasználók számára, hogy hanggal írják meg az üzeneteket a kézi gépelés helyett, így időt takarítanak meg, és számos használati helyzetben kényelmesebbé teszik. Ugyanakkor a funkció pontossága a gyakorlatban elérte a 95%-ot; a hangalapú írás utáni szöveg újbóli szerkesztésének szükségessége 6,4%-ról mindössze 4,8%-ra csökkent.
A Zalo statisztikái szerint, bár a funkció még tesztelési fázisban van, naponta közel 4,5 millió üzenetet generált, és havonta körülbelül 3,2 millió felhasználót vonzott (az adatok 2024 júniusáig frissítve).
Amióta 2017-ben úttörő szerepet játszott a mesterséges intelligencia kutatásában, a Zalo mindig is hitt a fiatalabb generáció „felhatalmazásában”. Jelenleg a Zalo alkalmazottainak akár 31%-a is a Z generációhoz tartozik. 2021-ben a Zalo mesterséges intelligencia mérnöki csapatának két másik, beszédfeldolgozási technológiával kapcsolatos kutatási témáját is elismerték az Ázsia- Csendes-óceáni Nemzetközi Mesterséges Intelligencia Konferencián (PRICAI 2021). Figyelemre méltó, hogy e két téma szerzői mind 30 év alatti fiatal kutatók.
Az Interspeech egy régóta fennálló, átfogó és rangos nemzetközi konferencia a beszédfeldolgozásról, amelyet a Nemzetközi Beszédkommunikációs Szövetség szervez. Idén a „Beszéd és azon túl ” témájú konferencia 2024. szeptember 1. és 5. között kerül megrendezésre Kos szigetén (Görögország).






Hozzászólás (0)