ทีมวิจัยปัญญาประดิษฐ์ (AI) จากมหาวิทยาลัยโพลีเทคนิควาเลนเซีย ประเทศสเปน พบว่าเมื่อโมเดลภาษาขนาดใหญ่มีขนาดใหญ่ขึ้นและซับซ้อนมากขึ้น โมเดลภาษาเหล่านี้ก็มีแนวโน้มที่จะยอมรับกับผู้ใช้น้อยลงว่าพวกเขาไม่รู้คำตอบ
ยิ่ง AI ฉลาดมากเท่าไหร่ โอกาสที่ผู้ใช้จะยอมรับว่าไม่รู้คำตอบก็ยิ่งน้อยลงเท่านั้น (ภาพประกอบ AI) |
ในการศึกษาที่ตีพิมพ์ในวารสาร Nature ทีมได้ทดสอบเวอร์ชันล่าสุดของแชทบอท AI ยอดนิยม 3 ตัวในด้านการตอบสนอง ความแม่นยำ และความสามารถของผู้ใช้ในการระบุคำตอบที่ไม่ถูกต้อง
เพื่อทดสอบความถูกต้องของหลักสูตร LLM สามหลักสูตรยอดนิยม ได้แก่ BLOOM, LLaMA และ GPT ทีมงานได้ถามคำถามหลายพันข้อและเปรียบเทียบคำตอบที่ได้รับกับคำถามเดิมในเวอร์ชันก่อนหน้า นอกจากนี้ พวกเขายังแบ่งหัวข้อต่างๆ ออกเป็นหลายระดับ เช่น คณิตศาสตร์ วิทยาศาสตร์ ปริศนาคำศัพท์ และภูมิศาสตร์ รวมถึงความสามารถในการสร้างข้อความหรือการดำเนินการต่างๆ เช่น การเรียงลำดับรายการ
การศึกษาเผยให้เห็นแนวโน้มที่น่าสังเกตบางประการ ความแม่นยำโดยรวมของแชทบอทเพิ่มขึ้นในแต่ละเวอร์ชันใหม่ แต่ยังคงลดลงเมื่อต้องเผชิญกับคำถามที่ยากขึ้น น่าแปลกที่เมื่อหลักสูตร LLM มีขนาดใหญ่ขึ้นและมีความซับซ้อนมากขึ้น พวกเขามักจะเปิดกว้างน้อยลงเกี่ยวกับความสามารถในการตอบคำถามที่ถูกต้อง
ในเวอร์ชันก่อนหน้า ปริญญานิติศาสตร์มหาบัณฑิต (LLM) ส่วนใหญ่จะแจ้งผู้ใช้อย่างชัดเจนเมื่อไม่พบคำตอบหรือต้องการข้อมูลเพิ่มเติม ในทางกลับกัน เวอร์ชันใหม่มักจะเดาคำตอบมากกว่า ส่งผลให้โดยรวมแล้วได้คำตอบทั้งถูกและผิดมากกว่า ที่น่ากังวลยิ่งกว่าคือ การศึกษาพบว่าปริญญานิติศาสตร์มหาบัณฑิต (LLM) ทุกสาขายังคงให้คำตอบที่ไม่ถูกต้องบ้างเป็นครั้งคราว แม้แต่กับคำถามง่ายๆ ซึ่งชี้ให้เห็นว่าความน่าเชื่อถือของปริญญานิติศาสตร์มหาบัณฑิต (LLM) ยังคงต้องปรับปรุงอีกมาก
ผลการวิจัยเหล่านี้ชี้ให้เห็นถึงความขัดแย้งในวิวัฒนาการของ AI: ในขณะที่โมเดลต่างๆ มีประสิทธิภาพมากขึ้น แต่โมเดลเหล่านี้อาจมีความโปร่งใสเกี่ยวกับข้อจำกัดน้อยลงด้วยเช่นกัน
สิ่งนี้ก่อให้เกิดความท้าทายใหม่ในการใช้งานและความน่าเชื่อถือของระบบ AI ซึ่งผู้ใช้ต้องระมัดระวังมากขึ้น และนักพัฒนาต้องมุ่งเน้นไปที่การปรับปรุงไม่เพียงแค่ความแม่นยำเท่านั้น แต่ยังรวมถึง "ความตระหนักรู้ในตนเอง" ของโมเดลด้วย
ที่มา: https://baoquocte.vn/cang-thong-minh-tri-tue-nhan-tao-cang-co-xu-huong-giau-dot-287987.html
การแสดงความคิดเห็น (0)