Pertandingan Pemprosesan Bahasa dan Pertuturan Vietnam (VLSP) adalah sebahagian daripada Persidangan Antarabangsa tahunan mengenai Bahasa dan Pemprosesan Pertuturan Vietnam yang dianjurkan oleh Kelab VLSP, cawangan Persatuan Teknologi Maklumat Vietnam. VLSP 2023 menganjurkan 10 pertandingan mengenai pemprosesan pertuturan dan teks, menghimpunkan penyelidik terkemuka, pakar dan unit pembangunan teknologi.

Walaupun ini adalah kali keempat Viettel AI menyertai pertandingan itu dan pernah memenangi tiga kali sebelum ini, jurutera Viettel masih menghadapi banyak kesukaran akibat perubahan dalam struktur kategori pertandingan.

Secara khusus, berbanding tahun lepas, kategori Pengiktirafan Pertuturan dan Pengiktirafan Emosi pada tahun ini telah digabungkan menjadi satu kategori. Pasukan mesti menyelesaikan dua masalah pada masa yang sama untuk memastikan pengiktirafan kedua-dua teks dan emosi ayat, beban kerja dan kesukaran kedua-duanya berganda.

Gunakan setiap data, sama ada berkualiti rendah atau tinggi

Bukan sahaja mengubah struktur kategori, peperiksaan tahun ini juga memberi tumpuan kepada membina model dari awal dengan syarat data terhad, termasuk data mentah, tidak berlabel dan berkualiti rendah. Peperiksaan menyediakan 4 kumpulan data dengan kualiti dan bentuk yang berbeza. Terdapat data yang hanya termasuk audio tidak berlabel, data yang hanya termasuk audio dan teks, data yang merangkumi emosi dan audio, kualiti tinggi, label standard dan data yang merangkumi emosi dan audio, kualiti rendah. Setiap set data ditakrifkan dengan jelas untuk memenuhi setiap tujuan dan kategori peperiksaan, dengan jumlah lebih daripada 300 jam pada semua set data. Ini adalah jumlah yang agak sederhana berbanding set data standard untuk latihan Pengecaman Pertuturan, yang biasanya memerlukan sehingga 1,000-2,000 jam atau lebih.

Setiap pasukan mempunyai masa kurang daripada 2 bulan untuk menyiapkan dan menyerahkan kerja mereka, tetapi pada hakikatnya, masa sebenar yang dihabiskan untuk menyelidik penyelesaian adalah lebih kurang kerana kekurangan sumber.

“Tahun ini, Viettel AI telah menumpukan banyak sumber infrastruktur pengkomputeran untuk menyelidik teknologi baharu serta membangunkan produk, manakala pengecaman pertuturan ialah teknologi yang memerlukan sumber perkakasan yang sangat besar,” kongsi En. Dang Dinh Son - Jurutera Kepintaran Buatan, Platform Pembantu Maya, Viettel AI.

foto 1.jpg
Kumpulan Kejuruteraan Kecerdasan Buatan, Blok Platform Pembantu Maya, mewakili Viettel AI yang mengambil bahagian dalam kategori Pengecaman Pertuturan dan Pengiktirafan Emosi Pertuturan - VLSP 2023

Berdepan dengan keadaan volum dan kualiti data yang rendah, pasukan penyelidik segera menentukan sudut pandangan "perlu menggunakan semua data tanpa mengira kualiti rendah atau tinggi". Untuk melakukan ini, adalah perlu untuk membina kitaran latihan untuk memproses semua data serta hanya satu model untuk menyelesaikan banyak masalah berbeza dan bukannya banyak model.

Hasil penguasaan teknologi perintis

Dalam konteks kedua-dua kekurangan data dan kekurangan sumber, pasukan penyelidik memutuskan untuk membina proses pemprosesan yang mudah, tidak besar-besaran, tetapi yang penting, diperhalusi sehingga ke butiran terkecil.

Jurutera Viettel AI mengkaji dengan teliti penyelidikan terkini daripada persidangan dan jurnal terkemuka di seluruh dunia untuk mencari pendekatan. Digabungkan dengan kaedah pemprosesan data untuk melatih model yang telah berkesan, pasukan penyelidik membina kitaran latihan untuk memproses semua data yang ada. Kitaran ini merangkumi 3 langkah: membina model pra-latihan untuk menerangkan ciri suara tanpa label, penalaan halus daripada model pra-latihan untuk dua masalah: pengecaman pertuturan dan pengecaman emosi, dan inferens.

"Pengalaman daripada menyelesaikan masalah dengan kekurangan data semasa pembangunan dan penggunaan produk terdahulu juga menyumbang dengan ketara dalam membantu pasukan mencari kaedah yang menentukan. Sebaliknya, pengetahuan dan keputusan yang diperoleh daripada ujian juga berpotensi untuk digunakan segera kepada produk Viettel AI, jadi proses bekerja semasa mengambil ujian berjalan dengan agak lancar," kata En. Bui Tien Dat, Penolong Enjin Platform Maya Viette.

Hasilnya, Viettel AI bukan sahaja memenangi hadiah pertama dalam kategori Pengiktirafan Pertuturan dan Pengiktirafan Emosi Pertuturan, tetapi juga mencapai markah yang mengagumkan sebanyak 89.18% (pasukan seterusnya masing-masing ialah 83.40% dan 78.45%).

Encik Son berkata faktor utama terletak pada model pemprosesan pertuturan khusus untuk bahasa Vietnam yang telah dibangunkan oleh Viettel AI sejak sekian lama.

"Daripada menggunakan model dan arahan daripada hasil penyelidikan yang tersedia, Viettel AI memilih untuk membina dan membangunkan modelnya sendiri untuk pemprosesan pertuturan Vietnam. Model ini sentiasa dikemas kini, dioptimumkan dan menjadi lebih dan lebih berkesan," kata Encik Son.

Bukan sahaja berhenti pada persaingan, penyelesaian Viettel AI ini akan menjadi premis untuk menaik taraf produk papan suis maya, pembantu maya Viettel, membantu mengenal pasti emosi pelanggan dengan lebih tepat dalam perbualan, dengan itu memberi maklum balas atau memilih nuansa perkataan yang sesuai. Oleh itu, perbualan antara manusia dan AI akan menjadi lebih semula jadi, meningkatkan pengalaman pengguna. Banyak aplikasi baharu dalam penjagaan pelanggan turut dibuka seperti membina sistem untuk mengenal pasti aduan dan aduan pelanggan secara automatik kepada papan suis untuk pengendalian tepat pada masanya atau untuk mengeksploitasi maklumat.

foto 2.jpg
En. Bui Tien Dat - Penolong Jurutera Platform Maya, Viettel AI mewakili pasukan untuk membentangkan hasil penyelidikan di bengkel tersebut.

Wakil unit itu berkata bahawa Viettel AI akan terus membangunkan teknologi, sentiasa menaik taraf produk untuk meningkatkan ketepatan, meningkatkan pengalaman pengguna dan kecekapan produk.

Quoc Tuan