Forskningsarbetet för att öka noggrannheten i realtidsmodeller för taligenkänning (Streaming Automatic Speech Recognition) av Le Duy Khanh - "GenZ"-ingenjör på Zalo AI - kommer att tillkännages för första gången vid den internationella vetenskapliga konferensen , som äger rum i Grekland i september 2024.
Med ämnet " Förbättra strömmande taligenkänning med tidsförskjuten kontextuell uppmärksamhet och dynamisk högerkontextmaskering " uppnådde forskningsartikeln från Zalo AI-ingenjören, född år 2000, ett nästan perfekt betyg - 11/12 poäng, och klarade den rigorösa granskningsrundan med mer än 2 000 deltagande artiklar som presenterades vid Interspeech- konferensen i form av en muntlig session.
” Jag är väldigt stolt över att min första vetenskapliga artikel uppmärksammades av en prestigefylld vetenskaplig konferens och att jag har möjlighet att presentera Vietnams forskningsresultat för stora teknikföretag, experter och det internationella samfundet ”, delade Le Duy Khanh.
Under ledning av Dr. Chau Thanh Duc - chef för forsknings- och utvecklingsavdelningen vid Zalo AI, föreläsare vid University of Natural Sciences (Ho Chi Minh City National University), förväntas detta forskningsprojekt ge ett viktigt bidrag till att uppgradera taligenkänningsmodeller, öka noggrannheten i röstdiktering och röst-till-text i Zalo-applikationen.
” Att sammanställa Zalo AI:s mycket praktiska forskning i vetenskapliga artiklar och presentera dem på prestigefyllda internationella konferenser är mycket meningsfullt. Det visar inte bara vietnamesiska ingenjörers kapacitet, utan också en önskan att dela erfarenheter och bidra till utvecklingen av det globala AI-samhället”, säger Dr. Chau Thanh Duc.
Tidigare integrerade Zalo denna forskning i sin meddelandeapplikation från slutet av 2023, vilket bidrog till att avsevärt förbättra noggrannheten i funktionen "röstmeddelandekomposition". Den här funktionen gör det möjligt för användare att skriva meddelanden med rösten istället för att skriva för hand, vilket sparar tid och gör det mer bekvämt i många användningssituationer. Samtidigt har noggrannheten för denna funktion nått 95 % i praktiken; andelen behov av att redigera om text efter att ha skrivit med rösten har minskat från 6,4 % till endast 4,8 %.
Enligt Zalos statistik har funktionen, även om den fortfarande är i testfasen, genererat nästan 4,5 miljoner meddelanden per dag och lockat cirka 3,2 miljoner användare varje månad (data uppdaterad till juni 2024).
Sedan Zalo började sin banbrytande resa inom AI-forskning 2017 har företaget alltid trott på att "stärka" den yngre generationen. För närvarande tillhör upp till 31 % av Zalos anställda GenZ-generationen. År 2021 uppmärksammades även två andra forskningsämnen från Zalos AI-ingenjörsteam, relaterade till talbehandlingsteknik, vid den internationella konferensen om artificiell intelligens i Asien och Stillahavsområdet (PRICAI 2021). Det är värt att notera att författarna till dessa två ämnen alla är unga forskare under 30 år.
Interspeech är en långvarig, omfattande och prestigefylld internationell konferens om talbehandling som organiseras av International Speech Communication Association. I år äger konferensen med temat "Tal och bortom " rum 1-5 september 2024 på ön Kos (Grekland).






Kommentar (0)