นักวิจัยที่ Arthur AI ซึ่งเป็นแพลตฟอร์มการตรวจสอบการเรียนรู้ของเครื่องจักร ได้ทำการทดสอบโมเดลชั้นนำของอุตสาหกรรมและพบว่า GPT-4 เป็นโมเดลที่ดีที่สุดในด้านคณิตศาสตร์ Llama 2 มีค่าเฉลี่ยในทุกๆ ด้าน Claude 2 จาก Anthropic "รู้" ขีดจำกัดของตัวเองดีที่สุด และ Cohere AI ได้รับการยกย่องให้เป็นโมเดลที่ "หลงผิด" มากที่สุดพร้อมด้วยคำตอบที่ผิดอย่างมั่นใจที่สุด
รายงานของ Arthur AI ออกมาในขณะที่ข้อมูลเท็จที่เกิดจาก AI กลายเป็นประเด็นร้อนเมื่อการเลือกตั้งประธานาธิบดีสหรัฐฯ ในปี 2024 ใกล้เข้ามา
ตามที่ Adam Wenchel ผู้ก่อตั้งร่วมและซีอีโอของ Arthur กล่าว นี่เป็นรายงานฉบับแรกที่ "พิจารณาอัตราการเกิดภาพหลอนของแบบจำลองภาษาขนาดใหญ่ (LLM) อย่างครอบคลุม แทนที่จะเผยแพร่แต่การจัดอันดับเท่านั้น"
ภาพลวงตาของ AI หมายถึงปรากฏการณ์ที่ผู้สำเร็จการศึกษาระดับปริญญาโทสาขานิติศาสตร์ (LLM) สร้างข้อมูลเท็จขึ้นมาทั้งหมดและมีพฤติกรรมราวกับว่าตนเองกำลังพูดความจริง ตัวอย่างเช่น ในเดือนมิถุนายน 2023 มีรายงานว่า ChatGPT ได้อ้างอิงข้อมูล "เท็จ" ในการยื่นฟ้องต่อศาลรัฐบาลกลางนิวยอร์ก และทนายความที่เกี่ยวข้องอาจต้องเผชิญกับบทลงโทษที่รุนแรง
ในการทดลองนี้ นักวิจัย Arthur AI ปล่อยให้โมเดล AI แข่งขันกันในหมวดหมู่ต่างๆ เช่น คณิตศาสตร์เชิงผสมผสาน ความรู้เกี่ยวกับประธานาธิบดีสหรัฐ ผู้นำทางการเมืองของโมร็อกโก ฯลฯ ด้วยคำถามที่ "ออกแบบมา" เพื่อเปิดเผยข้อผิดพลาดของ AI ซึ่งก็คือ "การที่โมเดลต้องอธิบายขั้นตอนการให้เหตุผลเกี่ยวกับข้อมูลที่กำหนดให้"
ผลลัพธ์แสดงให้เห็นว่า GPT-4 ของ OpenAI ทำงานได้ดีที่สุดในบรรดาโมเดลที่ทดสอบ และยังมีภาพลวงตาที่ต่ำกว่ารุ่นก่อน GPT-3.5 อีกด้วย ตัวอย่างเช่น ในข้อสอบคณิตศาสตร์ GPT-4 มีความหลงผิดน้อยลง 33% ถึง 50%
ในทางกลับกัน Llama 2 ของ Meta มักจะมีแนวหลอนประสาทมากกว่า GPT-4 และ Claude 2 ของ Anthropic
ในประเภทคณิตศาสตร์ GPT-4 ได้มาอันดับหนึ่ง ตามมาด้วย Claude 2 แต่ในการทดสอบประธานาธิบดีสหรัฐอเมริกา Claude 2 ได้อันดับหนึ่งในด้านความแม่นยำ แซง GPT-4 ไปได้อันดับสอง เมื่อถูกถามเกี่ยวกับการเมืองของโมร็อกโก GPT-4 ก็ยังคงออกมาเป็นฝ่ายชนะอีกครั้ง ส่วน Claude 2 กับ Llama 2 แทบจะเลือกที่จะไม่ตอบเลย
ในการทดลองครั้งที่สอง นักวิจัยได้ทดสอบว่าโมเดล AI มีความ “หลีกเลี่ยงความเสี่ยง” แค่ไหน (โดยให้ข้อความว่า “ในฐานะโมเดล AI ฉันไม่สามารถให้ความเห็นได้”)
การทดสอบนี้ทำให้ GPT-4 ได้รับการปกป้องเพิ่มขึ้น 50% เมื่อเทียบกับ GPT-3.5 โดย "วัดได้จากคำกล่าวของผู้ใช้ GPT-4 ว่าเวอร์ชันใหม่นั้นน่ารำคาญมากกว่า" ในทางกลับกัน โมเดล AI ของ Cohere ไม่ได้ทำการเคลื่อนไหวใดๆ เพื่อป้องกันปฏิกิริยาใดๆ เลย การศึกษาพบว่า Claude 2 มีความน่าเชื่อถือมากที่สุดในแง่ของ "การตระหนักรู้ในตนเอง" ซึ่งหมายถึงการประเมินอย่างถูกต้องว่ารู้อะไรและไม่รู้ และตอบเฉพาะคำถามที่มีข้อมูลการฝึกอบรมมาสนับสนุนเท่านั้น
ตัวแทนของบริษัท Cohere ปฏิเสธผลการค้นพบ โดยให้เหตุผลว่า “เทคโนโลยีการตรวจสอบย้อนกลับที่ได้รับการปรับปรุงของบริษัท ซึ่งไม่ได้รวมเข้าไว้ในโมเดลที่ทดสอบนั้นมีประสิทธิภาพสูงในการอ้างอิงข้อมูลที่ตรวจยืนยันได้เพื่อยืนยันแหล่งที่มา” สำหรับธุรกิจ
(ตามรายงานของซีเอ็นบีซี)
แหล่งที่มา
การแสดงความคิดเห็น (0)