Proyek penelitian untuk meningkatkan akurasi model pengenalan ucapan waktu nyata (Streaming Automatic Speech Recognition) oleh Le Duy Khanh - insinyur "GenZ" Zalo AI - akan diumumkan untuk pertama kalinya pada Konferensi Ilmiah Internasional, yang berlangsung di Yunani pada bulan September 2024.
Dengan topik " Meningkatkan Pengenalan Ucapan Streaming dengan Perhatian Kontekstual yang Bergeser Waktu dan Penyamaran Konteks Kanan yang Dinamis " , makalah penelitian insinyur AI Zalo yang lahir pada tahun 2000 tersebut memperoleh skor hampir sempurna - 11/12 poin, melewati babak peninjauan ketat dengan lebih dari 2.000 makalah yang berpartisipasi untuk dipresentasikan di Konferensi Interspeech dalam bentuk sesi lisan.
“ Saya sangat bangga bahwa artikel ilmiah pertama saya diakui oleh konferensi ilmiah bergengsi dan saya memiliki kesempatan untuk memperkenalkan pencapaian penelitian Vietnam kepada perusahaan teknologi besar, para ahli, dan komunitas internasional ,” ungkap Le Duy Khanh.
Di bawah bimbingan Dr. Chau Thanh Duc - Kepala Departemen Penelitian dan Pengembangan di Zalo AI, Dosen di Universitas Sains (Universitas Nasional Kota Ho Chi Minh), proyek penelitian ini diharapkan dapat memberikan kontribusi penting untuk meningkatkan model pengenalan suara, meningkatkan akurasi dikte suara dan suara ke teks pada aplikasi Zalo.
“ Mensintesiskan penelitian Zalo AI yang sangat praktis ke dalam makalah ilmiah dan mempresentasikannya di konferensi internasional bergengsi sangatlah penting. Hal ini tidak hanya menunjukkan kapasitas para insinyur Vietnam, tetapi juga menunjukkan keinginan untuk berbagi pengalaman dan berkontribusi pada pengembangan komunitas AI global,” ujar Dr. Chau Thanh Duc.
Sebelumnya, Zalo telah mengintegrasikan penelitian ini ke dalam aplikasi perpesanannya sejak akhir tahun 2023, yang secara signifikan meningkatkan akurasi fitur "pengolahan pesan suara". Fitur ini memungkinkan pengguna untuk mengolah pesan dengan suara, alih-alih mengetik, sehingga menghemat waktu dan membuatnya lebih praktis dalam berbagai situasi penggunaan. Pada saat yang sama, akurasi fitur ini telah mencapai 95% dalam praktiknya; tingkat kebutuhan untuk mengedit teks setelah mengolah pesan dengan suara telah menurun dari 6,4% menjadi hanya 4,8%.
Menurut statistik Zalo, meskipun fitur ini masih dalam tahap pengujian, fitur ini telah menghasilkan hampir 4,5 juta pesan per hari dan menarik sekitar 3,2 juta pengguna bulanan (data diperbarui hingga Juni 2024).
Sejak memulai perjalanan pionirnya dalam riset AI pada tahun 2017, Zalo selalu percaya pada "pemberdayaan" generasi muda. Saat ini, hingga 31% karyawan Zalo berasal dari generasi GenZ. Pada tahun 2021, dua topik riset lain dari tim teknik AI Zalo yang berkaitan dengan teknologi pemrosesan ucapan juga mendapatkan pengakuan di Konferensi Internasional Asia- Pasifik tentang Kecerdasan Buatan (PRICAI 2021). Menariknya, kedua topik ini ditulis oleh peneliti muda berusia di bawah 30 tahun.
Interspeech adalah konferensi internasional yang telah lama ada, komprehensif, dan bergengsi tentang Pemrosesan Ucapan yang diselenggarakan oleh International Speech Communication Association. Tahun ini, konferensi bertema "Ucapan dan Lebih Jauh " ini berlangsung dari 1-5 September 2024 di Pulau Kos (Yunani).
Komentar (0)