Pengumuman kriteria penilaian penalaran dan interaksi LLM Vietnam

Pertama kali diperkenalkan pada tahun 2023, VMLU (Vietnamese Multitask Language Understanding) telah menjadi standar “Buatan Vietnam” yang terdepan, memotivasi banyak kelompok penelitian domestik untuk meningkatkan kualitas model bahasa besar (LLM) Vietnam.

Menurut statistik, pada tahun 2024, VMLU mengumumkan 45 LLM dalam pemeringkatan, menerima permintaan evaluasi dari lebih dari 155 organisasi dan individu, merangkum 691 unduhan kriteria evaluasi dan 3.729 evaluasi LLM dari platform. Standar yang ditetapkan digunakan oleh banyak organisasi domestik dan asing seperti VinBigData, VNPT AI, Viettel Solutions, Universitas Sains dan Teknologi - VNU-HCM, UONLP x Ontocord - Universitas Oregon (AS), DAMO Academy - Alibaba Group, tim SDSRV - Samsung...

Zalo AI dan JAIST Institute memperkenalkan versi baru VMLU.

Seiring dengan semakin cerdasnya model AI, VMLU telah ditingkatkan untuk menilai kompetensi yang lebih kompleks. Secara spesifik, rangkaian standar yang diperluas ini menilai tiga keterampilan inti LLM modern, termasuk:

Pemahaman Membaca (ViSQuAD): 3.310 pertanyaan menilai kemampuan untuk memahami teks secara mendalam dan menangani pertanyaan kompleks berdasarkan karakteristik khusus bahasa Vietnam dan konteksnya.

Penalaran (ViDrop): 3.090 pertanyaan menantang kemampuan penalaran logis LLM melalui tugas-tugas seperti perbandingan, penghitungan, dan perhitungan aritmatika.

Interaksi (ViDialog): 210 dialog menilai koherensi, pemahaman kontekstual, dan penerapan pengetahuan multidisiplin (sejarah, geografi, logika) dalam dialog.

Sorotan dari rangkaian standar baru ini adalah metode penilaian lanjutan, yang menggabungkan beragam bentuk, mulai dari pilihan ganda, pertanyaan terbuka, hingga persyaratan penalaran langkah demi langkah. Secara khusus, VMLU menerapkan metode "LLM sebagai juri" (menggunakan LLM untuk mengevaluasi LLM)—sebuah tren yang sedang diterapkan oleh komunitas AI global untuk mencapai hasil yang lebih objektif dan berskala besar.

Dengan 10.880 soal pilihan ganda yang mencakup 58 topik dan dibagi menjadi beberapa tingkat, versi 2023 berfokus pada penilaian pengetahuan dasar LLM. Sementara itu, standar baru ini melangkah lebih jauh, mengukur kemampuan penalaran dan interaksi LLM dalam konteks kehidupan nyata . Peningkatan ini tidak hanya membantu pengembang mengevaluasi model secara lebih komprehensif, tetapi juga mendorong LLM untuk menciptakan nilai-nilai yang bermanfaat bagi pengguna akhir.

Serangkaian kriteria yang diperluas menilai tiga keterampilan inti LLM modern.

"Saat ini terdapat ratusan tolok ukur berbeda di dunia untuk mengevaluasi kapabilitas model bahasa berskala besar. Namun, jumlah tolok ukur khusus untuk bahasa Vietnam sangat terbatas. Dengan peluncuran tolok ukur pada tahun 2023 dan 2025, kami berharap dapat mendiversifikasi aspek penilaian," ujar Dr. Chau Thanh Duc, Direktur Riset & Pengembangan Kecerdasan Buatan di Zalo AI.

Serangkaian standar baru telah diluncurkan di situs web VMLU https://vmlu.ai/ bagi individu dan kelompok penelitian untuk mengevaluasi model mereka.

Serangkaian standar baru telah diluncurkan di situs web VMLU.

Dengan kerja sama para ahli terkemuka di Zalo AI dan JAIST Institute, VMLU akan terus meneliti dan mengembangkan standar penilaian yang lebih beragam, baik dari segi bidang maupun tingkat kesulitan. Ke depannya, VMLU juga bertujuan untuk mengembangkan standar penilaian keselamatan dan integritas, guna memastikan bahwa model LLM dikembangkan secara bertanggung jawab.

Sumber: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html