ປະກາດມາດຖານການປະເມີນຜົນການສົມເຫດສົມຜົນ ແລະ ການພົວພັນຮ່ວມມືຂອງຫວຽດນາມ LLM

Zalo AI ແລະ ສະຖາບັນວິທະຍາສາດເຕັກໂນໂລຊີຂັ້ນສູງຍີ່ປຸ່ນ (JAIST) ແນະນຳສະຖາບັນວິທະຍາສາດເຕັກໂນໂລຊີໃໝ່ຂອງ VMLU, ຊຸກຍູ້ປະຊາຄົມ AI ຂອງຫວຽດນາມ ໃຫ້ສົມບູນແບບ LLM ລະດັບສູງ.

ZNews•01/10/2025

ເປັນຄັ້ງທຳອິດໃນປີ 2023, VMLU (Vietnamese Multitask Language Understanding) ໄດ້ກາຍເປັນມາດຕະຖານ “Make in Vietnam” ບຸກເບີກ, ຊຸກຍູ້ໃຫ້ຫຼາຍກຸ່ມຄົ້ນຄວ້າພາຍໃນປະເທດຍົກສູງຄຸນນະພາບຂອງບັນດາຕົວແບບພາສາໃຫຍ່ ຫວຽດນາມ (LLM).

ອີງຕາມສະຖິຕິ, ໃນປີ 2024, VMLU ໄດ້ປະກາດ 45 LLMs ໃນການຈັດອັນດັບ, ໄດ້ຮັບການຮ້ອງຂໍການປະເມີນຜົນຈາກຫຼາຍກວ່າ 155 ອົງການຈັດຕັ້ງແລະບຸກຄົນ, ສະຫຼຸບການດາວໂຫຼດ 691 ຂອງເງື່ອນໄຂການປະເມີນຜົນທີ່ກໍານົດໄວ້ແລະ 3,729 ການປະເມີນຜົນຂອງ LLM ຈາກເວທີ. ມາດຕະຖານທີ່ກຳນົດໄວ້ແມ່ນນຳໃຊ້ໂດຍຫຼາຍອົງການຈັດຕັ້ງທັງພາຍໃນ ແລະ ຕ່າງປະເທດເຊັ່ນ: VinBigData, VNPT AI, Viettel Solutions, ມະຫາວິທະຍາໄລວິທະຍາສາດ ແລະ ເຕັກໂນໂລຊີ - VNU-HCM, UONLP x Ontocord - ມະຫາວິທະຍາໄລ Oregon (USA), DAMO Academy - Alibaba Group, ທີມ SDSRV - Samsung...

Zalo AI ແລະສະຖາບັນ JAIST ແນະນໍາ VMLU ຮຸ່ນໃຫມ່.

ເມື່ອຕົວແບບ AI ກາຍເປັນອັດສະລິຍະຫຼາຍຂຶ້ນ, VMLU ໄດ້ຖືກຍົກລະດັບເພື່ອປະເມີນຄວາມສາມາດທີ່ຊັບຊ້ອນຫຼາຍຂຶ້ນ. ໂດຍສະເພາະ, ຊຸດມາດຕະຖານທີ່ຂະຫຍາຍໄດ້ປະເມີນສາມທັກສະຫຼັກຂອງ LLM ທີ່ທັນສະໄຫມ, ລວມທັງ:

Reading Comprehension (ViSQuAD): 3,310 ຄໍາຖາມປະເມີນຄວາມສາມາດທີ່ຈະເຂົ້າໃຈຂໍ້ຄວາມໃນຄວາມເລິກແລະຈັດການຄໍາຖາມສະລັບສັບຊ້ອນໂດຍອີງໃສ່ລັກສະນະສະເພາະຂອງພາສາແລະສະພາບການຂອງຫວຽດນາມ.

ການໃຫ້ເຫດຜົນ (ViDrop): 3,090 ຄຳຖາມທ້າທາຍຄວາມສາມາດໃນການໃຫ້ເຫດຜົນຢ່າງມີເຫດຜົນຂອງ LLM ໂດຍຜ່ານວຽກງານເຊັ່ນ: ການປຽບທຽບ, ການນັບ, ແລະການຄິດໄລ່ເລກເລກ.

ການໂຕ້ຕອບ (ViDialog): 210 ການສົນທະນາປະເມີນຄວາມສອດຄ່ອງ, ຄວາມເຂົ້າໃຈໃນສະພາບການ, ແລະການນໍາໃຊ້ຄວາມຮູ້ຫຼາຍວິຊາ (ປະຫວັດສາດ, ພູມສາດ, ເຫດຜົນ) ໃນການປຶກສາຫາລື.

ຈຸດເດັ່ນຂອງມາດຕະຖານຊຸດໃຫມ່ແມ່ນວິທີການປະເມີນແບບພິເສດ, ປະສົມປະສານຂອງຫຼາຍຮູບແບບຈາກຫຼາຍທາງເລືອກ, ຄໍາຖາມທີ່ເປີດເຜີຍໄປຫາຄວາມຕ້ອງການເຫດຜົນຂັ້ນຕອນ. ໂດຍສະເພາະ, VMLU ນໍາໃຊ້ວິທີການ "LLM ເປັນຜູ້ພິພາກສາ" (ການນໍາໃຊ້ LLM ເພື່ອປະເມີນ LLM) - ແນວໂນ້ມທີ່ຖືກນໍາໃຊ້ໂດຍຊຸມຊົນ AI ທົ່ວໂລກເພື່ອບັນລຸຜົນໄດ້ຮັບຕາມຈຸດປະສົງແລະຂະຫນາດໃຫຍ່.

ດ້ວຍ 10,880 ຄໍາຖາມແບບຫຼາຍທາງເລືອກ, ກວມເອົາ 58 ຫົວຂໍ້, ແບ່ງອອກເປັນຫຼາຍລະດັບ, ສະບັບ 2023 ໄດ້ສຸມໃສ່ການປະເມີນຄວາມຮູ້ພື້ນຖານຂອງ LLM. ໃນຂະນະດຽວກັນ, ຊຸດມາດຕະຖານໃຫມ່ໄດ້ກ້າວໄປອີກບາດກ້າວຫນຶ່ງ, ການວັດແທກເຫດຜົນແລະຄວາມສາມາດໃນການໂຕ້ຕອບຂອງ LLM ໃນສະພາບການຊີວິດຈິງ . ການຍົກລະດັບນີ້ບໍ່ພຽງແຕ່ຊ່ວຍໃຫ້ນັກພັດທະນາປະເມີນແບບຈໍາລອງໄດ້ຢ່າງກວ້າງຂວາງ, ແຕ່ຍັງສົ່ງເສີມ LLM ເພື່ອສ້າງຄຸນຄ່າທີ່ເປັນປະໂຫຍດສໍາລັບຜູ້ໃຊ້ສຸດທ້າຍ.

ຊຸດເງື່ອນໄຂທີ່ຂະຫຍາຍໄດ້ປະເມີນສາມທັກສະຫຼັກຂອງ LLM ທີ່ທັນສະໄຫມ.

“ປະຈຸບັນມີຫຼາຍຮ້ອຍຕົວເລກມາດຕະຖານທີ່ແຕກຕ່າງກັນ ໃນໂລກ ເພື່ອຕີລາຄາຄວາມສາມາດຂອງຕົວແບບພາສາໃຫຍ່. ເຖິງຢ່າງໃດກໍຕາມ, ຈຳນວນມາດຖານສະເພາະຂອງພາສາຫວຽດນາມ ແມ່ນຈຳກັດຫຼາຍ, ດ້ວຍການເປີດຕົວມາດຕະການໃນປີ 2023 ແລະ 2025, ພວກຂ້າພະເຈົ້າຫວັງວ່າຈະຜັນຂະຫຍາຍບັນດາດ້ານການປະເມີນຜົນ,”.

ຊຸດມາດຕະຖານໃຫມ່ໄດ້ຖືກເປີດຕົວຢູ່ໃນເວັບໄຊທ໌ VMLU https://vmlu.ai/ ສໍາລັບບຸກຄົນແລະກຸ່ມຄົ້ນຄ້ວາເພື່ອປະເມີນແບບຈໍາລອງຂອງພວກເຂົາ.

ຊຸດມາດຕະຖານໃຫມ່ໄດ້ຖືກເປີດຕົວຢູ່ໃນເວັບໄຊທ໌ VMLU.

ດ້ວຍການຮ່ວມມືຂອງຜູ້ຊ່ຽວຊານຊັ້ນນໍາຂອງສະຖາບັນ Zalo AI ແລະ JAIST, VMLU ຈະສືບຕໍ່ຄົ້ນຄ້ວາແລະພັດທະນາມາດຕະຖານການປະເມີນຜົນທີ່ມີຄວາມຫຼາກຫຼາຍທາງດ້ານວິຊາສະເພາະແລະຄວາມຫຍຸ້ງຍາກ. ໃນອະນາຄົດ, VMLU ຍັງມີຈຸດປະສົງເພື່ອພັດທະນາມາດຕະຖານການປະເມີນຄວາມປອດໄພແລະຄວາມຊື່ສັດ, ຮັບປະກັນວ່າຕົວແບບ LLM ໄດ້ຖືກພັດທະນາຢ່າງມີຄວາມຮັບຜິດຊອບ.

ທີ່ມາ: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html