ประกาศเกณฑ์การประเมินการใช้เหตุผลและการโต้ตอบของหลักสูตร LLM ของเวียดนาม

Zalo AI และสถาบันวิทยาศาสตร์และเทคโนโลยีขั้นสูงแห่งญี่ปุ่น (JAIST) เปิดตัว VMLU เวอร์ชันใหม่ เพื่อส่งเสริมชุมชน AI ของเวียดนามในการปรับปรุงโมเดล LLM ระดับสูงให้สมบูรณ์แบบ

ZNews•01/10/2025

VMLU (การทำความเข้าใจภาษาเวียดนามหลายงาน) ซึ่งเปิดตัวครั้งแรกในปี 2023 ได้กลายเป็นชุดมาตรฐาน "Make in Vietnam" อันล้ำสมัย สร้างแรงบันดาลใจให้กลุ่มวิจัยในประเทศหลายแห่งปรับปรุงคุณภาพของแบบจำลองภาษาเวียดนามขนาดใหญ่ (LLM)

จากสถิติ ในปี 2567 VMLU ได้ประกาศรายชื่อหลักสูตรปริญญานิติศาสตร์มหาบัณฑิต (LLM) จำนวน 45 หลักสูตร ได้รับคำขอประเมินจากองค์กรและบุคคลมากกว่า 155 แห่ง สรุปเกณฑ์การประเมินชุดนี้มีการดาวน์โหลด 691 ครั้ง และการประเมินหลักสูตรปริญญานิติศาสตร์มหาบัณฑิต (LLM) จากแพลตฟอร์มนี้ 3,729 ครั้ง มาตรฐานชุดนี้มีการใช้งานโดยองค์กรทั้งในและต่างประเทศมากมาย เช่น VinBigData, VNPT AI, Viettel Solutions, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยี (VNU-HCM), UONLP x Ontocord (มหาวิทยาลัยออริกอน (สหรัฐอเมริกา), DAMO Academy (Alibaba Group), ทีม SDSRV (Samsung...)

Zalo AI และสถาบัน JAIST เปิดตัว VMLU เวอร์ชันใหม่

เนื่องจากโมเดล AI มีความชาญฉลาดมากขึ้น VMLU จึงได้รับการปรับปรุงเพื่อประเมินความสามารถที่ซับซ้อนยิ่งขึ้น โดยเฉพาะอย่างยิ่ง ชุดมาตรฐานที่ขยายเพิ่มนี้จะประเมินทักษะหลักสามประการของหลักสูตร LLM สมัยใหม่ ได้แก่:

ความเข้าใจในการอ่าน (ViSQuAD): คำถาม 3,310 ข้อประเมินความสามารถในการเข้าใจข้อความเชิงลึกและจัดการกับคำถามที่ซับซ้อนโดยอิงตามลักษณะเฉพาะของภาษาเวียดนามและบริบท

การใช้เหตุผล (ViDrop): คำถาม 3,090 ข้อท้าทายความสามารถในการใช้เหตุผลเชิงตรรกะของ LLM ผ่านทางงานต่างๆ เช่น การเปรียบเทียบ การนับ และการคำนวณทางคณิตศาสตร์

ปฏิสัมพันธ์ (ViDialog): บทสนทนา 210 บทประเมินความสอดคล้อง ความเข้าใจบริบท และการประยุกต์ใช้ความรู้สหสาขาวิชา (ประวัติศาสตร์ ภูมิศาสตร์ ตรรกะ) ในบทสนทนา

จุดเด่นของมาตรฐานชุดใหม่นี้คือวิธีการประเมินขั้นสูงที่ผสมผสานรูปแบบที่หลากหลาย ตั้งแต่คำถามแบบเลือกตอบปลายเปิด ไปจนถึงข้อกำหนดการให้เหตุผลแบบทีละขั้นตอน โดยเฉพาะอย่างยิ่ง VMLU ได้นำวิธีการ "LLM มาใช้ในฐานะผู้ตัดสิน" (โดยใช้ LLM เพื่อประเมิน LLM) ซึ่งเป็นแนวโน้มที่ชุมชน AI ทั่วโลกนำมาใช้เพื่อให้ได้ผลลัพธ์ที่เป็นกลางและครอบคลุมมากขึ้น

ข้อสอบแบบปรนัย 10,880 ข้อ ครอบคลุม 58 หัวข้อ แบ่งออกเป็นหลายระดับ ฉบับปี 2023 มุ่งเน้นการประเมินความรู้พื้นฐานด้านนิติศาสตร์มหาบัณฑิต (LLM) ขณะเดียวกัน ชุดมาตรฐานใหม่นี้ยังก้าวไปอีกขั้นด้วยการวัดความสามารถในการใช้เหตุผลและปฏิสัมพันธ์ของนิติศาสตร์มหาบัณฑิต (LLM) ในบริบท จริง การอัปเกรดนี้ไม่เพียงแต่ช่วยให้นักพัฒนาประเมินแบบจำลองได้อย่างครอบคลุมมากขึ้น แต่ยังส่งเสริมให้นิติศาสตร์มหาบัณฑิตสร้างคุณค่าที่เป็นประโยชน์ต่อผู้ใช้งานอีกด้วย

เกณฑ์ที่ขยายชุดนี้จะประเมินทักษะหลักสามประการของ LLM สมัยใหม่

“ปัจจุบันมีเกณฑ์มาตรฐานหลายร้อยแบบ ทั่วโลก ที่ใช้ประเมินความสามารถของแบบจำลองภาษาขนาดใหญ่ อย่างไรก็ตาม จำนวนเกณฑ์มาตรฐานเฉพาะสำหรับภาษาเวียดนามยังมีจำกัดมาก ด้วยการเปิดตัวเกณฑ์มาตรฐานในปี 2566 และ 2568 เราหวังว่าจะทำให้การประเมินมีความหลากหลายมากขึ้น” ดร. เชา แถ่ง ดึ๊ก ผู้อำนวยการฝ่ายวิจัยและพัฒนาปัญญาประดิษฐ์ของ Zalo AI กล่าว

มาตรฐานชุดใหม่ได้เปิดตัวบนเว็บไซต์ VMLU https://vmlu.ai/ เพื่อให้บุคคลและกลุ่มนักวิจัยสามารถประเมินโมเดลของตนได้

มาตรฐานชุดใหม่ได้เปิดตัวบนเว็บไซต์ VMLU แล้ว

ด้วยความร่วมมือจากผู้เชี่ยวชาญชั้นนำจาก Zalo AI และสถาบัน JAIST VMLU จะยังคงวิจัยและพัฒนามาตรฐานการประเมินที่หลากหลายมากขึ้นทั้งในด้านสาขาและความยากง่าย ในอนาคต VMLU ยังมุ่งมั่นที่จะพัฒนามาตรฐานการประเมินด้านความปลอดภัยและความสมบูรณ์ เพื่อให้มั่นใจว่าแบบจำลอง LLM ได้รับการพัฒนาอย่างมีความรับผิดชอบ

ที่มา: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html