ຮູບແບບ AI ຕ້ອງການຊຸດມາດຕະຖານທີ່ປະເມີນຄວາມສາມາດທີ່ສັບສົນຢ່າງເລິກເຊິ່ງ

ການພັດທະນາຢ່າງໄວວາຂອງແບບຈໍາລອງ AI ທີ່ທັນສະໄຫມແມ່ນຮຽກຮ້ອງໃຫ້ມີມາດຕະຖານການປະເມີນຜົນຢ່າງກວ້າງຂວາງສໍາລັບຄວາມສາມາດທີ່ຊັບຊ້ອນ, ສ້າງແຮງກະຕຸ້ນສໍາລັບການພັດທະນາແບບຈໍາລອງ LLM ລະດັບສູງ.

ZNews•03/10/2025

ບົດລາຍງານສະຖານະການພັດທະນາ (LLM) 2024 (LLM) ຂອງ VMLU (ເວທີການຮຽນຮູ້, ປະເມີນ ແລະຈັດອັນດັບສໍາລັບ LLMs ພາສາຫວຽດນາມ) ໄດ້ສະແດງໃຫ້ເຫັນເຖິງການເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍຂອງຈໍານວນ LLMs ທີ່ສຸມໃສ່ພາສາຫວຽດນາມ. ໂດຍສະເພາະ, ເວທີ VMLU ໄດ້ເຜີຍແຜ່ 45 LLMs ໃນການຈັດອັນດັບ, ໄດ້ຮັບການຮ້ອງຂໍການປະເມີນຜົນຈາກຫຼາຍກວ່າ 155 ອົງການຈັດຕັ້ງແລະບຸກຄົນ, ແລະສະຫຼຸບການດາວໂຫລດ 691 ມາດຕະຖານການປະເມີນຜົນແລະການປະເມີນຜົນຂອງ LLM 3,729 ຈາກເວທີໃນປີ 2024.

ຫຼາຍອົງການຈັດຕັ້ງພາຍໃນ ແລະ ຕ່າງປະເທດໄດ້ນຳໃຊ້ VMLU ເຊັ່ນ: VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, ທີມ SDSRV - Samsung...

VMLU ພາສາອັງກິດ 1

VMLU ຈະເປີດຕົວເງື່ອນໄຂການປະເມີນ LLM ຊຸດທໍາອິດໃນປີ 2023.

ຄຽງຄູ່ກັບການຂະຫຍາຍຕົວຂອງປະລິມານ, ຄຸນນະພາບຂອງແບບຈໍາລອງ LLM ຍັງໄດ້ຮັບການປັບປຸງເພີ່ມຂຶ້ນ. ຖ້າຫາກວ່າໃນອະດີດ, LLMs ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຄວາມຮູ້ພື້ນຖານ, ໃນປັດຈຸບັນນັກພັດທະນາສຸມໃສ່ການຂະຫຍາຍຄວາມສາມາດເພີ່ມເຕີມເຊັ່ນ: ການອ່ານຄວາມເຂົ້າໃຈ, ການແລກປ່ຽນການສົນທະນາຫຼືການສົມເຫດສົມຜົນຂອງມະນຸດ.

ຕອບສະໜອງຕໍ່ການພັດທະນາຢ່າງແຂງແຮງຂອງບັນດາຕົວແບບ LLM ຂອງຫວຽດນາມ ທີ່ກ້າວໜ້າ, VMLU ໄດ້ເຜີຍແຜ່ບັນດາມາດຖານໃໝ່ເພື່ອຕີລາຄາຕື່ມອີກບັນດາຄວາມສາມາດບົ່ມຊ້ອນຂອງບັນດາຕົວແບບ.

ມາດຕະຖານທີ່ສົ່ງເສີມຄວາມເປັນເລີດ LLM

ກ່ອນໜ້ານີ້, ເມື່ອຕະຫຼາດຂາດມາດຕະຖານດ້ານຄຸນນະພາບ, ຫຼາຍກຸ່ມຄົ້ນຄ້ວາພາຍໃນປະເທດຕ້ອງສ້າງເຄື່ອງມືປະເມີນພາຍໃນດ້ວຍມາດຕະຖານຂອງຕົນ. ນີ້ຈໍາກັດການປະເມີນຜົນເຊັ່ນດຽວກັນກັບການປຽບທຽບຄຸນນະພາບຂອງຕົວແບບກັບ LLMs ທີ່ມີຢູ່ໃນຕະຫຼາດເພື່ອໃຫ້ມີກົນລະຍຸດການຝຶກອົບຮົມທີ່ເຫມາະສົມ.

ເພື່ອແກ້ໄຂບັນຫາດັ່ງກ່າວ, ໃນເດືອນພະຈິກ 2023, VMLU - ຊຸດທຳອິດຂອງມາດຕະຖານ “ຜະລິດຢູ່ຫວຽດນາມ” ໄດ້ຮັບການຄົ້ນຄວ້າໂດຍຄະນະຜູ້ຊ່ຽວຊານຂັ້ນສູງຫວຽດນາມ ແລະ ສະໜອງໃຫ້ປະຊາຄົມໂດຍບໍ່ເສຍຄ່າ.

ຊຸດມາດຕະຖານຂອງ 10,880 ຄໍາຖາມແບບຫຼາຍທາງເລືອກ, ກວມເອົາ 58 ຫົວຂໍ້, ແບ່ງອອກເປັນຫຼາຍລະດັບ, ໄດ້ຊ່ວຍໃຫ້ນັກພັດທະນາເຂົ້າເຖິງຊຸດຂໍ້ມູນການປະເມີນທົ່ວໄປໄດ້ຢ່າງງ່າຍດາຍ. ໃນເວລາດຽວກັນ, ໃຊ້ປະໂຫຍດຈາກການຈັດອັນດັບຂອງ VMLU ເພື່ອປຽບທຽບຕົວແບບຂອງພວກເຂົາໂດຍກົງກັບ LLMs ທີ່ມີຢູ່ໃນຕະຫຼາດ.

ທ່ານ ດັ້ງທິງອກທິ້ງ, ຫົວໜ້າກົມປຸງແຕ່ງພາສາທຳມະຊາດ - VinBigData Virtual Assistant Technology Block, ເຊິ່ງຕົວແບບ ViGPT-1.6B-v1 ແມ່ນຢູ່ໃນການຈັດອັນດັບຕົວແບບຈາກຮອຍຂີດຂ່ວນ (LLM ໄດ້ຮັບການຝຶກອົບຮົມຈາກ scratch) ຂອງ VMLU ໃຫ້ຮູ້ວ່າ: “VMLU ມີຂໍ້ມູນທີ່ຄົບຖ້ວນ ແລະ ຄົບຖ້ວນເພື່ອຕີລາຄາຄວາມສາມາດຄວາມຮູ້ຂອງ LLM ຂອງຫວຽດນາມ ໃນແຕ່ລະຂົງເຂດ. ຂັ້ນຕອນ, ແຕ່ຍັງເປັນການວັດແທກປະສິດທິພາບຂອງການທົດລອງຂອງພວກເຮົາໃນລະຫວ່າງຂະບວນການຝຶກອົບຮົມ."

ທ່ານດຣ ດັ້ງທິງໄທ ກ່າວຕື່ມວ່າ: “ນີ້ຈະເປັນ 'ສະເປປຣິງບອດ' ເພື່ອສົ່ງເສີມການພັດທະນາຂອງ AI ໂດຍທົ່ວໄປ ແລະ LLM ໂດຍສະເພາະ, ເພາະວ່າພວກເຮົາຕ້ອງມີມາດຕະຖານທີ່ດີ ເພື່ອໃຫ້ພວກເຮົາມີພື້ນຖານໃນການຝຶກອົບຮົມຕົວແບບທີ່ມີຄຸນນະພາບສູງ.

ຜູ້ອຳນວຍການໃຫຍ່ Microsoft - ດຣ Bach Hung Nguyen ກໍ່ຢືນຢັນເຖິງຜົນປະໂຫຍດຂອງ VMLU ໃນການຕີລາຄາການປະຕິບັດຕົວແບບ LLM ເປັນພາສາຫວຽດນາມ, ຊ່ວຍໃຫ້ບັນດາຫົວໜ່ວຍພັດທະນາເຂົ້າໃຈຄວາມສາມາດຂອງຕົວແບບໄດ້ດີຂຶ້ນ. ນອກຈາກນັ້ນ, ທ່ານດຣ ບັກຮົ່ງຫງວຽນ ຍັງຄາດຫວັງວ່າ VMLU ຈະເພີ່ມຊຸດທັກສະທີ່ເປັນປະໂຫຍດເຊັ່ນ: ການໃຫ້ເຫດຜົນ, ການສ້າງລະຫັດ, ແລະການສະຫຼຸບຂໍ້ຄວາມ.

ຮຸ່ນໃຫມ່ຂອງ VMLU ມີຈຸດປະສົງເພື່ອໃຫ້ຮູບແບບ LLM ທີ່ມີຄໍາສັ່ງສູງກວ່າທີ່ສົມບູນແບບ

ບໍ່ດົນມານີ້, VMLU ຍັງສືບຕໍ່ປະກາດຊຸດມາດຕະຖານໃຫມ່, ການປະເມີນຄວາມສາມາດໃນການສົມເຫດສົມຜົນແລະການໂຕ້ຕອບຂອງ LLM. ຊຸດມາດຕະຖານທີ່ຂະຫຍາຍໄດ້ປະເມີນ 3 ທັກສະຫຼັກຂອງ LLM ທີ່ທັນສະໄຫມ, ລວມທັງ:

Reading Comprehension (ViSQuAD) : 3,310 ຄໍາຖາມປະເມີນຄວາມສາມາດທີ່ຈະເຂົ້າໃຈຂໍ້ຄວາມໃນຄວາມເລິກແລະການແກ້ໄຂຄໍາຖາມສະລັບສັບຊ້ອນໂດຍອີງໃສ່ລັກສະນະສະເພາະຂອງພາສາແລະສະພາບການຂອງຫວຽດນາມ.

ການໃຫ້ເຫດຜົນ (ViDrop) : 3,090 ຄໍາຖາມທ້າທາຍຄວາມສາມາດໃນການສົມເຫດສົມຜົນຢ່າງມີເຫດຜົນຂອງ LLM ໂດຍຜ່ານວຽກງານເຊັ່ນ: ການປຽບທຽບ, ການນັບ, ແລະການຄິດໄລ່ເລກເລກ.

ການໂຕ້ຕອບ (ViDialog) : 210 ການສົນທະນາປະເມີນຄວາມສອດຄ່ອງ, ຄວາມສາມາດໃນການເຂົ້າໃຈສະພາບການແລະນໍາໃຊ້ຄວາມຮູ້ຫຼາຍດ້ານ (ປະຫວັດສາດ, ພູມສາດ, ເຫດຜົນ) ໃນການປຶກສາຫາລື.

ການຍົກລະດັບນີ້ບໍ່ພຽງແຕ່ຊ່ວຍໃຫ້ນັກພັດທະນາປະເມີນແບບຈໍາລອງໄດ້ຢ່າງກວ້າງຂວາງ, ແຕ່ຍັງສົ່ງເສີມ LLM ເພື່ອສ້າງຄຸນຄ່າທີ່ເປັນປະໂຫຍດສໍາລັບຜູ້ໃຊ້ສຸດທ້າຍ.

ອ້າຍ VMLU 2

ມາດຕະຖານ VMLU ໃໝ່ ທີ່ຈະອອກມາໃນປີ 2025.

ດຣ ເຈົາແທ່ງດຶກ, ຜູ້ອໍານວຍການຝ່າຍຄົ້ນຄວ້າ ແລະພັດທະນາປັນຍາປະດິດ ຢູ່ Zalo AI, ອົງການພັດທະນາ VMLU, ໃຫ້ຮູ້ວ່າ: “ປະຈຸບັນ ໃນທົ່ວໂລກ ມີຫຼາຍຮ້ອຍມາດຖານທີ່ແຕກຕ່າງກັນເພື່ອຕີລາຄາຄວາມສາມາດຂອງຕົວແບບພາສາໃຫຍ່. ເຖິງຢ່າງໃດກໍ່ຕາມ, ຕົວເລກມາດຕະຖານການປະເມີນສະເພາະຂອງຫວຽດນາມ ແມ່ນມີຄວາມຈຳກັດຫຼາຍ, ດ້ວຍການເປີດຕົວມາດຕະຖານໃນປີ 2023 ແລະ 2025.

ຊຸດມາດຕະຖານໃຫມ່ໄດ້ຖືກເປີດຕົວຢູ່ໃນເວັບໄຊທ໌ VMLU https://vmlu.ai/ ສໍາລັບບຸກຄົນແລະກຸ່ມຄົ້ນຄ້ວາເພື່ອປະເມີນແບບຈໍາລອງຂອງພວກເຂົາ.

ອ້າຍ VMLU 3

ຊຸດມາດຕະຖານໃຫມ່ໄດ້ຖືກປັບປຸງຢູ່ໃນເວັບໄຊທ໌ VMLU.

VMLU ແມ່ນເວທີປາໄສຕີລາຄາ ແລະ ຈັດອັນດັບບັນດາຕົວແບບ LLM ຂອງຫວຽດນາມ ສ້າງໂດຍ Zalo AI ສົມທົບກັບສະຖາບັນ ວິທະຍາສາດ ແລະ ເຕັກໂນໂລຊີຂັ້ນສູງຍີ່ປຸ່ນ (JAIST) ໂດຍບໍ່ເສຍຄ່າໃຊ້ຈ່າຍໃຫ້ປະຊາຄົມແຕ່ເດືອນ 11/2023. ຜ່ານນັ້ນ, ປະກອບສ່ວນເຂົ້າໃນຍຸກພັດທະນາເຕັກໂນໂລຊີຂອງປະເທດດ້ວຍບັນດາທິດທາງວິທະຍາສາດ, ເຕັກໂນໂລຊີ, ນະວັດຕະກຳ ແລະ ການຫັນເປັນດິຈິຕອນແຫ່ງຊາດ.

ທີ່ມາ: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html