Lucrările de cercetare menite să contribuie la creșterea preciziei modelelor de recunoaștere vocală în timp real (Streaming Automatic Speech Recognition) realizate de Le Duy Khanh - inginerul „GenZ” de la Zalo AI - vor fi anunțate în premieră la Conferința Științifică Internațională , care va avea loc în Grecia în septembrie 2024.
Cu tema „ Îmbunătățirea recunoașterii vorbirii în flux continuu cu atenție contextuală decalatată în timp și mascare dinamică a contextului drept ” , lucrarea de cercetare a inginerului Zalo AI, născut în anul 2000, a obținut un scor aproape perfect - 11/12 puncte, trecând de runda riguroasă de evaluare, cu peste 2.000 de lucrări participante care vor fi prezentate la Conferința Interspeech sub forma unei sesiuni orale.
„ Sunt foarte mândru că primul meu articol științific a fost recunoscut de o conferință științifică prestigioasă și am ocazia să prezint realizările cercetării Vietnamului marilor companii tehnologice, experților și comunității internaționale ”, a declarat Le Duy Khanh.
Sub îndrumarea Dr. Chau Thanh Duc - Șeful Departamentului de Cercetare și Dezvoltare la Zalo AI, lector universitar la Universitatea de Științe Naturale (Universitatea Națională Ho Chi Minh City), se așteaptă ca acest proiect de cercetare să aducă o contribuție importantă la modernizarea modelelor de recunoaștere vocală, creșterea preciziei dictării vocale și a conversiei vocale în text în aplicația Zalo.
„ Sintetizarea cercetărilor extrem de practice ale Zalo AI în lucrări științifice și prezentarea acestora la conferințe internaționale prestigioase este foarte semnificativă. Nu numai că demonstrează capacitatea inginerilor vietnamezi, dar demonstrează și dorința de a împărtăși experiențe și de a contribui la dezvoltarea comunității globale de inteligență artificială”, a declarat Dr. Chau Thanh Duc.
Anterior, Zalo a integrat această cercetare în aplicația sa de mesagerie de la sfârșitul anului 2023, contribuind la îmbunătățirea semnificativă a preciziei funcției de „compunerea mesajelor vocale”. Această funcție permite utilizatorilor să compună mesaje vocal în loc să le tasteze manual, economisind timp și făcând-o mai convenabilă în multe situații de utilizare. În același timp, precizia acestei funcții a ajuns la 95% în practică; rata necesității de reeditare a textului după compunerea vocală a scăzut de la 6,4% la doar 4,8%.
Conform statisticilor Zalo, deși funcția este încă în faza de testare, a generat aproape 4,5 milioane de mesaje pe zi și a atras aproximativ 3,2 milioane de utilizatori lunar (date actualizate până în iunie 2024).
De la începutul călătoriei sale de pionierat în cercetarea inteligenței artificiale în 2017, Zalo a crezut întotdeauna în „împuternicirea” tinerei generații. În prezent, până la 31% dintre angajații Zalo aparțin generației GenZ. În 2021, alte două teme de cercetare ale echipei de inginerie Zalo AI, legate de tehnologia de procesare a vorbirii, au fost, de asemenea, recunoscute la Conferința Internațională Asia- Pacific privind Inteligența Artificială (PRICAI 2021). În mod special, autorii acestor două teme sunt toți tineri cercetători cu vârsta sub 30 de ani.
Interspeech este o conferință internațională de lungă durată, cuprinzătoare și prestigioasă privind procesarea vorbirii, organizată de Asociația Internațională de Comunicare prin Vorbire. Anul acesta, conferința cu tema „Vorbirea și dincolo de ea ” va avea loc în perioada 1-5 septembrie 2024 pe insula Kos (Grecia).






Comentariu (0)