Model AI memerlukan serangkaian standar yang menilai secara mendalam kemampuan yang kompleks

Laporan Status Pengembangan (LLM) VMLU (Platform Pembelajaran, Penilaian, dan Pemeringkatan untuk LLM Bahasa Vietnam) 2024 menunjukkan peningkatan tajam jumlah LLM yang berfokus pada bahasa Vietnam. Secara spesifik, platform VMLU telah menerbitkan 45 LLM dalam pemeringkatan, menerima permintaan evaluasi dari lebih dari 155 organisasi dan individu, serta merangkum 691 unduhan kriteria evaluasi dan 3.729 evaluasi LLM dari platform tersebut pada tahun 2024.

Banyak organisasi dalam dan luar negeri telah menggunakan VMLU seperti VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, tim SDSRV - Samsung...

VMLU Bahasa Inggris 1

VMLU akan meluncurkan serangkaian kriteria penilaian LLM pertamanya pada tahun 2023.

Seiring dengan peningkatan kuantitas, kualitas model LLM juga semakin meningkat. Jika sebelumnya LLM hanya berfokus pada pengetahuan dasar, kini para pengembang berfokus pada pengembangan keterampilan seperti pemahaman bacaan, pertukaran percakapan, atau penalaran seperti manusia.

Menanggapi semakin kuatnya perkembangan model LLM Vietnam tingkat lanjut, VMLU telah menerbitkan serangkaian standar baru untuk menilai lebih lanjut kemampuan kompleks model tersebut.

Standar yang mempromosikan keunggulan LLM

Sebelumnya, ketika pasar kekurangan standar kualitas, banyak kelompok riset domestik harus membangun alat penilaian internal mereka sendiri dengan standar mereka sendiri. Hal ini membatasi evaluasi sekaligus perbandingan kualitas model dengan LLM yang ada di pasaran untuk mendapatkan strategi pelatihan yang tepat.

Untuk mengatasi masalah ini, pada bulan November 2023, VMLU - rangkaian pertama standar umum "Buatan Vietnam" diteliti oleh tim ahli terkemuka Vietnam dan diberikan secara gratis kepada masyarakat.

Kumpulan standar 10.880 pertanyaan pilihan ganda, yang mencakup 58 topik dan dibagi menjadi beberapa tingkatan, telah membantu para pengembang mengakses data penilaian umum dengan mudah. Selain itu, manfaatkan peringkat VMLU untuk membandingkan model mereka secara langsung dengan LLM yang ada di pasaran.

Dr. Dang Tran Thai, Kepala Departemen Pemrosesan Bahasa Alami - Blok Teknologi Asisten Virtual VinBigData, yang model ViGPT-1.6B-v1-nya termasuk dalam peringkat model dari awal (LLM yang dilatih dari awal) VMLU, mengatakan: "VMLU memiliki data yang relatif lengkap dan komprehensif untuk mengevaluasi kapasitas pengetahuan LLM untuk orang Vietnam. VMLU tidak hanya berguna untuk mengevaluasi kualitas LLM di setiap tahap pengembangan, tetapi juga sebagai tolok ukur efektivitas eksperimen kami selama proses pelatihan."

“Ini akan menjadi 'batu loncatan' untuk mendorong pengembangan AI secara umum dan LLM secara khusus, karena kita harus memiliki standar yang baik agar kita memiliki dasar untuk melatih model berkualitas tinggi,” tambah Dr. Dang Tran Thai.

Insinyur Utama di Microsoft, Dr. Bach Hung Nguyen, juga menegaskan manfaat VMLU dalam mengevaluasi kinerja model LLM dalam bahasa Vietnam, membantu unit pengembangan lebih memahami kapabilitas model tersebut. Selain itu, Dr. Bach Hung Nguyen juga berharap VMLU dapat menambahkan serangkaian keterampilan bermanfaat seperti penalaran, pembuatan kode, dan peringkasan teks.

Versi baru VMLU bertujuan untuk menyempurnakan model LLM tingkat tinggi

Baru-baru ini, VMLU kembali mengumumkan serangkaian standar baru yang menilai kemampuan penalaran dan interaksi mahasiswa LLM. Rangkaian standar yang diperluas ini menilai 3 keterampilan inti LLM modern, termasuk:

Pemahaman Membaca (ViSQuAD) : 3.310 pertanyaan menilai kemampuan untuk memahami teks secara mendalam dan menangani pertanyaan kompleks berdasarkan karakteristik khusus bahasa Vietnam dan konteksnya.

Penalaran (ViDrop) : 3.090 pertanyaan menantang kemampuan penalaran logis LLM melalui tugas-tugas seperti perbandingan, penghitungan, dan perhitungan aritmatika.

Interaksi (ViDialog) : 210 dialog menilai koherensi, kemampuan memahami konteks dan menerapkan pengetahuan multidisiplin (sejarah, geografi, logika) dalam dialog.

Peningkatan ini tidak hanya membantu pengembang mengevaluasi model secara lebih komprehensif, tetapi juga mendorong LLM untuk menciptakan nilai yang berguna bagi pengguna akhir.

Saudara VMLU 2

Standar VMLU baru akan dirilis pada tahun 2025.

Dr. Chau Thanh Duc, Direktur Penelitian & Pengembangan Kecerdasan Buatan di Zalo AI - organisasi yang mengembangkan VMLU, mengatakan: “Saat ini terdapat ratusan standar berbeda di dunia untuk mengevaluasi kapasitas model bahasa besar. Namun, jumlah standar penilaian khusus untuk bahasa Vietnam sangat terbatas. Dengan peluncuran standar tersebut pada tahun 2023 dan 2025, kami berharap dapat mendiversifikasi aspek penilaian.”

Serangkaian standar baru telah diluncurkan di situs web VMLU https://vmlu.ai/ bagi individu dan kelompok penelitian untuk mengevaluasi model mereka.

Saudara VMLU 3

Serangkaian standar baru telah diperbarui di situs web VMLU.

VMLU adalah platform untuk mengevaluasi dan memeringkat model LLM Vietnam yang dibangun oleh Zalo AI bekerja sama dengan Japan Advanced Institute of Science and Technology (JAIST) dan disediakan gratis kepada komunitas mulai November 2023. Dengan upaya mendampingi komunitas AI Vietnam, VMLU berkontribusi dalam meningkatkan kemampuan masyarakat Vietnam dalam menguasai teknologi baru. Dengan demikian, VMLU berkontribusi pada era perkembangan teknologi negara ini dengan orientasi terobosan dalam sains, teknologi, inovasi, dan transformasi digital nasional.

Sumber: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html