Mengumumkan kriteria penilaian untuk penaakulan dan interaksi LLM Vietnam

Mula diperkenalkan pada 2023, VMLU (Pemahaman Bahasa Pelbagai Tugas Vietnam) telah menjadi set piawaian "Make in Vietnam" perintis, mendorong banyak kumpulan penyelidikan domestik untuk meningkatkan kualiti model bahasa besar Vietnam (LLM).

Menurut statistik, pada tahun 2024, VMLU mengumumkan 45 LLM pada kedudukan, menerima permintaan penilaian daripada lebih 155 organisasi dan individu, meringkaskan 691 muat turun kriteria penilaian yang ditetapkan dan 3,729 penilaian LLM daripada platform. Piawaian yang ditetapkan digunakan oleh banyak organisasi dalam dan luar negara seperti VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, pasukan SDSRV - Samsung...

Zalo AI dan JAIST Institute memperkenalkan versi baharu VMLU.

Apabila model AI menjadi semakin pintar, VMLU telah dinaik taraf untuk menilai kecekapan yang lebih kompleks. Khususnya, set standard yang diperluas menilai tiga kemahiran teras LLM moden, termasuk:

Kefahaman Membaca (ViSQuAD): 3,310 soalan menilai keupayaan untuk memahami teks secara mendalam dan mengendalikan soalan kompleks berdasarkan ciri khusus bahasa dan konteks Vietnam.

Penaakulan (ViDrop): 3,090 soalan mencabar kebolehan penaakulan logik LLM melalui tugasan seperti perbandingan, pengiraan dan pengiraan aritmetik.

Interaksi (ViDialog): 210 dialog menilai koheren, pemahaman kontekstual, dan aplikasi pengetahuan pelbagai disiplin (sejarah, geografi, logik) dalam dialog.

Kemuncak set standard baharu ialah kaedah penilaian lanjutan, menggabungkan pelbagai bentuk daripada pelbagai pilihan, soalan terbuka kepada keperluan penaakulan langkah demi langkah. Khususnya, VMLU menggunakan kaedah "LLM sebagai hakim" (menggunakan LLM untuk menilai LLM) - trend yang digunakan oleh komuniti AI global untuk mencapai hasil yang lebih objektif dan berskala besar.

Dengan 10,880 soalan aneka pilihan, meliputi 58 topik, dibahagikan kepada pelbagai peringkat, versi 2023 memfokuskan pada menilai pengetahuan asas LLM. Sementara itu, set piawaian baharu melangkah lebih jauh, mengukur keupayaan penaakulan dan interaksi LLM dalam konteks kehidupan sebenar . Peningkatan ini bukan sahaja membantu pembangun menilai model dengan lebih komprehensif, tetapi juga mempromosikan LLM untuk mencipta nilai berguna untuk pengguna akhir.

Set kriteria yang diperluas menilai tiga kemahiran teras LLM moden.

"Pada masa ini terdapat beratus-ratus penanda aras yang berbeza di dunia untuk menilai keupayaan model bahasa yang besar. Walau bagaimanapun, bilangan penanda aras khusus untuk bahasa Vietnam adalah sangat terhad. Dengan pelancaran penanda aras pada 2023 dan 2025, kami berharap dapat mempelbagaikan aspek penilaian," kata Dr. Chau Thanh Duc, Pengarah Penyelidikan & Pembangunan Kecerdasan Buatan Zalo AI.

Set piawaian baharu telah dilancarkan di tapak web VMLU https://vmlu.ai/ untuk individu dan kumpulan penyelidikan menilai model mereka.

Set piawaian baharu telah dilancarkan di tapak web VMLU.

Dengan kerjasama pakar terkemuka di Zalo AI dan JAIST Institute, VMLU akan terus menyelidik dan membangunkan piawaian penilaian yang lebih pelbagai dari segi bidang dan kesukaran. Pada masa hadapan, VMLU juga berhasrat untuk membangunkan piawaian penilaian keselamatan dan integriti, memastikan model LLM dibangunkan secara bertanggungjawab.

Sumber: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html