Kompetisi Bahasa dan Pemrosesan Ucapan Vietnam (VLSP) merupakan bagian dari Konferensi Internasional tahunan tentang Bahasa dan Pemrosesan Ucapan Vietnam yang diselenggarakan oleh Klub VLSP, cabang dari Asosiasi Teknologi Informasi Vietnam. VLSP 2023 menyelenggarakan 10 kompetisi tentang pemrosesan ucapan dan teks, yang mempertemukan para peneliti, pakar, dan unit pengembangan teknologi terkemuka.

Meskipun ini adalah keempat kalinya Viettel AI berpartisipasi dalam kompetisi dan telah menang tiga kali sebelumnya, para teknisi Viettel masih menghadapi banyak kesulitan karena perubahan dalam struktur kategori kompetisi.

Khususnya, dibandingkan tahun lalu, kategori Pengenalan Ucapan dan Pengenalan Emosi tahun ini telah digabung menjadi satu. Tim harus menyelesaikan dua soal sekaligus untuk memastikan teks dan emosi kalimat dikenali, sehingga beban kerja dan kesulitannya meningkat dua kali lipat.

Manfaatkan setiap data, baik kualitas rendah maupun tinggi

Tidak hanya mengubah struktur kategori, ujian tahun ini juga berfokus pada pembangunan model dari awal dengan kondisi data terbatas, termasuk data mentah, tidak berlabel, dan berkualitas rendah. Ujian ini menyediakan 4 kelompok data dengan kualitas dan bentuk yang berbeda. Ada data yang hanya mencakup audio tanpa label, data yang hanya mencakup audio dan teks, data yang mencakup emosi dan audio berkualitas tinggi, berlabel standar, dan kumpulan data yang mencakup emosi dan audio berkualitas rendah. Setiap kumpulan data didefinisikan secara jelas untuk melayani setiap tujuan dan kategori ujian, dengan total lebih dari 300 jam untuk semua kumpulan data. Jumlah ini cukup rendah dibandingkan dengan kumpulan data standar untuk pelatihan Pengenalan Ucapan, yang biasanya membutuhkan waktu hingga 1.000-2.000 jam atau lebih.

Setiap tim memiliki waktu kurang dari 2 bulan untuk mengerjakan dan menyerahkan pekerjaan mereka, tetapi pada kenyataannya, waktu sebenarnya yang dihabiskan untuk meneliti solusi jauh lebih sedikit karena kurangnya sumber daya.

“Tahun ini, Viettel AI telah mengalokasikan banyak sumber daya infrastruktur komputasi untuk meneliti teknologi baru serta pengembangan produk, sementara pengenalan suara merupakan teknologi yang membutuhkan banyak sumber daya perangkat keras,” ujar Bapak Dang Dinh Son - Insinyur Kecerdasan Buatan, Platform Asisten Virtual, Viettel AI.

gambar 1.jpg
Grup Rekayasa Kecerdasan Buatan, Blok Platform Asisten Virtual, mewakili Viettel AI yang berpartisipasi dalam kategori Pengenalan Ucapan dan Pengenalan Emosi Ucapan - VLSP 2023

Menghadapi kondisi volume dan kualitas data yang rendah, tim peneliti segera menetapkan sudut pandang "harus memanfaatkan semua data, terlepas dari kualitasnya". Untuk melakukan ini, perlu membangun siklus pelatihan untuk memproses semua data serta hanya satu model untuk menyelesaikan banyak masalah yang berbeda, alih-alih banyak model.

Hasil penguasaan teknologi pionir

Dalam konteks kurangnya data dan sumber daya, tim peneliti memutuskan untuk membangun proses pemrosesan yang sederhana, tidak masif, tetapi yang terpenting, disempurnakan hingga ke detail terkecil.

Para insinyur AI Viettel mempelajari dengan saksama riset terbaru dari berbagai konferensi dan jurnal terkemuka di seluruh dunia untuk menemukan pendekatan yang tepat. Dikombinasikan dengan metode pemrosesan data yang efektif untuk melatih model, tim peneliti membangun siklus pelatihan untuk memproses semua data yang tersedia. Siklus ini mencakup tiga langkah: membangun model yang telah dilatih sebelumnya untuk mendeskripsikan fitur suara tanpa label, menyempurnakan model yang telah dilatih sebelumnya untuk dua permasalahan: pengenalan suara dan pengenalan emosi, serta melakukan inferensi.

"Pengalaman dalam memecahkan masalah kekurangan data selama pengembangan dan penerapan produk sebelumnya juga berkontribusi signifikan dalam membantu tim menemukan metode pengambilan keputusan. Di sisi lain, pengetahuan dan hasil yang diperoleh dari pengujian ini juga berpotensi untuk langsung diterapkan pada produk-produk Viettel AI, sehingga proses pengerjaan selama pengujian berjalan cukup lancar," ujar Bapak Bui Tien Dat - Virtual Assistant Platform Engineer, Viettel AI.

Hasilnya, Viettel AI tidak hanya memenangkan hadiah pertama dalam kategori Pengenalan Ucapan dan Pengenalan Emosi Ucapan, tetapi juga meraih skor mengesankan sebesar 89,18% (tim berikutnya masing-masing memperoleh skor 83,40% dan 78,45%).

Bapak Son mengatakan faktor kuncinya terletak pada model pemrosesan ucapan khusus untuk bahasa Vietnam yang telah lama dikembangkan Viettel AI.

"Alih-alih menggunakan model dan instruksi dari hasil riset yang tersedia, Viettel AI memilih untuk membangun dan mengembangkan modelnya sendiri untuk pemrosesan ucapan bahasa Vietnam. Model ini terus diperbarui, dioptimalkan, dan menjadi semakin efektif," ujar Bapak Son.

Tak hanya berhenti di kompetisi, solusi Viettel AI ini akan menjadi dasar untuk meningkatkan produk layanan telepon virtual, asisten virtual Viettel, yang membantu mengidentifikasi emosi pelanggan secara lebih akurat dalam percakapan, sehingga memberikan umpan balik atau memilih nuansa kata yang tepat. Dengan demikian, percakapan antara manusia dan AI akan menjadi lebih alami, meningkatkan pengalaman pengguna. Banyak aplikasi baru dalam layanan pelanggan juga sedang dikembangkan, seperti membangun sistem untuk mengidentifikasi keluhan pelanggan dan keluhan ke layanan telepon secara otomatis agar dapat ditangani secara tepat waktu atau dimanfaatkan untuk memanfaatkan informasi.

gambar 2.jpg
Bapak Bui Tien Dat - Virtual Assistant Platform Engineer, Viettel AI mewakili tim untuk mempresentasikan hasil penelitian di konferensi tersebut.

Perwakilan unit tersebut mengatakan bahwa Viettel AI akan terus mengembangkan teknologi, terus meningkatkan produk untuk meningkatkan akurasi, meningkatkan pengalaman pengguna, dan efisiensi produk.

Quoc Tuan