Forskningsarbeidet som skal bidra til å øke nøyaktigheten til talegjenkjenningsmodeller i sanntid (Streaming Automatic Speech Recognition) utført av Le Duy Khanh – «GenZ»-ingeniør hos Zalo AI – vil bli annonsert for første gang på den internasjonale vitenskapelige konferansen , som finner sted i Hellas i september 2024.
Med emnet « Forbedring av strømming av talegjenkjenning med tidsforskjøvet kontekstuell oppmerksomhet og dynamisk høyre kontekstmaskering » oppnådde forskningsartikkelen til Zalo AI-ingeniøren, født i 2000, en nesten perfekt poengsum – 11/12 poeng, og bestod den strenge evalueringsrunden med mer enn 2000 deltakende artikler som skal presenteres på Interspeech- konferansen i form av en muntlig foredragsholder.
« Jeg er veldig stolt over at min første vitenskapelige artikkel ble anerkjent av en prestisjefylt vitenskapelig konferanse, og jeg har muligheten til å presentere Vietnams forskningsresultater for store teknologiselskaper, eksperter og det internasjonale samfunnet », delte Le Duy Khanh.
Under veiledning av Dr. Chau Thanh Duc – leder for forsknings- og utviklingsavdelingen ved Zalo AI, foreleser ved Universitetet for naturvitenskap (Ho Chi Minh City National University), forventes dette forskningsprosjektet å gi et viktig bidrag til å oppgradere talegjenkjenningsmodeller, øke nøyaktigheten av stemmediktat og tale-til-tekst i Zalo-applikasjonen.
« Det er svært meningsfullt å syntetisere Zalo AIs svært praktiske forskning i vitenskapelige artikler og presentere dem på prestisjefylte internasjonale konferanser. Det demonstrerer ikke bare kapasiteten til vietnamesiske ingeniører, men også ønsket om å dele erfaringer og bidra til utviklingen av det globale AI-samfunnet», sa Dr. Chau Thanh Duc.
Tidligere integrerte Zalo denne forskningen i meldingsapplikasjonen sin fra slutten av 2023, noe som bidro til å forbedre nøyaktigheten til funksjonen for «talemeldingsskriving» betydelig. Denne funksjonen lar brukere skrive meldinger med stemmen i stedet for å skrive for hånd, noe som sparer tid og gjør det mer praktisk i mange brukssituasjoner. Samtidig har nøyaktigheten til denne funksjonen nådd 95 % i praksis; andelen som trenger å redigere tekst på nytt etter å ha skrevet med stemmen har sunket fra 6,4 % til bare 4,8 %.
Ifølge Zalo-statistikk har funksjonen, selv om den fortsatt er i testfasen, generert nesten 4,5 millioner meldinger per dag og tiltrukket seg omtrent 3,2 millioner månedlige brukere (data oppdatert til juni 2024).
Siden starten på sin banebrytende reise innen AI-forskning i 2017 har Zalo alltid trodd på å «styrke» den yngre generasjonen. For tiden tilhører opptil 31 % av Zalos ansatte GenZ-generasjonen. I 2021 ble to andre forskningsemner fra Zalos AI-ingeniørteam relatert til talebehandlingsteknologi også anerkjent på den internasjonale konferansen om kunstig intelligens i Asia og Stillehavsområdet (PRICAI 2021). Det er verdt å merke seg at forfatterne av disse to emnene alle er unge forskere under 30 år.
Interspeech er en langvarig, omfattende og prestisjefylt internasjonal konferanse om talebehandling organisert av International Speech Communication Association. I år finner konferansen med temaet «Tale og utover » sted fra 1. til 5. september 2024 på øya Kos (Hellas).






Kommentar (0)