Model AI memerlukan satu set piawaian yang menilai secara mendalam keupayaan kompleks

Laporan Status Pembangunan (LLM) VMLU (Pembelajaran, Penilaian dan Kedudukan untuk LLM Bahasa Vietnam) 2024 telah menunjukkan peningkatan mendadak dalam bilangan LLM yang memfokuskan pada bahasa Vietnam. Khususnya, platform VMLU telah menerbitkan 45 LLM pada kedudukan, menerima permintaan penilaian daripada lebih daripada 155 organisasi dan individu, dan meringkaskan 691 muat turun kriteria penilaian dan 3,729 penilaian LLM daripada platform pada 2024.

Banyak organisasi dalam dan luar negara telah menggunakan VMLU seperti VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, pasukan SDSRV - Samsung...

VMLU Bahasa Inggeris 1

VMLU akan melancarkan set pertama kriteria penilaian LLM pada tahun 2023.

Seiring dengan percambahan dalam kuantiti, kualiti model LLM juga semakin bertambah baik. Jika dahulu, LLM dilatih mengenai pengetahuan asas, kini pembangun menumpukan pada mengembangkan lebih banyak kemahiran seperti pemahaman membaca, pertukaran perbualan atau penaakulan seperti manusia.

Menjawab perkembangan model LLM Vietnam termaju yang semakin kukuh, VMLU telah menerbitkan set standard baharu untuk menilai lagi keupayaan kompleks model tersebut.

Piawaian yang menggalakkan kecemerlangan LLM

Sebelum ini, apabila pasaran kekurangan standard kualiti, banyak kumpulan penyelidikan domestik terpaksa membina alat penilaian dalaman mereka sendiri dengan piawaian mereka sendiri. Ini mengehadkan penilaian serta perbandingan kualiti model dengan LLM sedia ada di pasaran untuk mempunyai strategi latihan yang sesuai.

Untuk menyelesaikan masalah ini, pada November 2023, VMLU - set pertama piawaian biasa "Buat di Vietnam" telah dikaji oleh pasukan pakar terkemuka Vietnam dan diberikan secara percuma kepada masyarakat.

Set standard 10,880 soalan aneka pilihan, meliputi 58 topik, dibahagikan kepada banyak peringkat, telah membantu pembangun mengakses set data penilaian umum dengan mudah. Pada masa yang sama, manfaatkan kedudukan VMLU untuk membandingkan secara langsung model mereka dengan LLM sedia ada di pasaran.

Dr. Dang Tran Thai, Ketua Jabatan Pemprosesan Bahasa Semulajadi - Blok Teknologi Pembantu Maya VinBigData, yang model ViGPT-1.6B-v1nya berada dalam penarafan model dari awal (LLM dilatih dari awal) VMLU, berkata: "VMLU mempunyai data yang agak lengkap dan komprehensif untuk menilai kapasiti pengetahuan LLM untuk orang Vietnam. VMLU bukan sahaja pada peringkat pembangunan yang berkesan, tetapi juga pada tahap keberkesanan LLM. daripada eksperimen kami semasa proses latihan."

"Ini akan menjadi 'papan loncatan' untuk menggalakkan pembangunan AI secara amnya dan LLM khususnya, kerana kita mesti mempunyai standard yang baik supaya kita mempunyai asas untuk melatih model berkualiti tinggi," tambah Dr. Dang Tran Thai.

Jurutera Utama di Microsoft - Dr. Bach Hung Nguyen turut mengesahkan kegunaan VMLU dalam menilai prestasi model LLM dalam bahasa Vietnam, membantu unit pembangunan memahami dengan lebih baik keupayaan model tersebut. Di samping itu, Dr. Bach Hung Nguyen juga menjangkakan VMLU menambah satu set kemahiran berguna seperti penaakulan, penjanaan kod dan ringkasan teks.

Versi baharu VMLU bertujuan untuk menyempurnakan model LLM peringkat tinggi

Baru-baru ini, VMLU terus mengumumkan satu set piawaian baharu, menilai kebolehan penaakulan dan interaksi LLM. Set piawaian yang diperluas menilai 3 kemahiran teras LLM moden, termasuk:

Kefahaman Membaca (ViSQuAD) : 3,310 soalan menilai keupayaan untuk memahami teks secara mendalam dan mengendalikan soalan kompleks berdasarkan ciri khusus bahasa dan konteks Vietnam.

Penaakulan (ViDrop) : 3,090 soalan mencabar kebolehan penaakulan logik LLM melalui tugasan seperti perbandingan, pengiraan dan pengiraan aritmetik.

Interaksi (ViDialog) : 210 dialog menilai kesepaduan, kebolehan memahami konteks dan menggunakan pengetahuan pelbagai disiplin (sejarah, geografi, logik) dalam dialog.

Peningkatan ini bukan sahaja membantu pembangun menilai model dengan lebih komprehensif, tetapi juga mempromosikan LLM untuk mencipta nilai berguna untuk pengguna akhir.

Abang VMLU 2

Piawaian VMLU baharu akan dikeluarkan pada tahun 2025.

Dr. Chau Thanh Duc, Pengarah Penyelidikan & Pembangunan Kecerdasan Buatan di Zalo AI - organisasi yang membangunkan VMLU, berkata: "Pada masa ini terdapat ratusan piawaian berbeza di dunia untuk menilai kapasiti model bahasa yang besar. Walau bagaimanapun, bilangan piawaian penilaian khusus untuk bahasa Vietnam adalah sangat terhad. Dengan pelancaran piawaian pada 2023 dan 2025, kami berharap untuk mempelbagaikan aspek penilaian."

Set piawaian baharu telah dilancarkan di tapak web VMLU https://vmlu.ai/ untuk individu dan kumpulan penyelidikan menilai model mereka.

Abang VMLU 3

Set piawaian baharu telah dikemas kini di tapak web VMLU.

VMLU ialah platform untuk menilai dan memberi ranking model LLM Vietnam yang dibina oleh Zalo AI dengan kerjasama Japan Advanced Institute of Science and Technology (JAIST) dan disediakan secara percuma kepada komuniti mulai November 2023. Dengan usaha untuk mengiringi komuniti AI Vietnam, VMLU menyumbang untuk mempromosikan keupayaan rakyat Vietnam untuk menguasai teknologi baharu. Justeru, menyumbang kepada era pembangunan teknologi negara dengan orientasi terobosan dalam Sains, teknologi, inovasi dan transformasi digital negara.

Sumber: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html