นักวิจัยที่ Arthur AI ซึ่งเป็นแพลตฟอร์มการติดตามการเรียนรู้ของเครื่องจักร ได้ทำการทดสอบโมเดลชั้นนำของอุตสาหกรรมและพบว่า GPT-4 เป็นโมเดลที่ดีที่สุดในด้านคณิตศาสตร์ Llama 2 อยู่ในระดับปานกลางในทุกๆ ด้าน Claude 2 จาก Anthropic "รู้" ขีดจำกัดของตัวเองดีที่สุด และ Cohere AI ได้รับตำแหน่งโมเดลที่ "หลงผิด" มากที่สุดโดยมีคำตอบที่ผิดอย่างมั่นใจที่สุด
รายงานของ Arthur AI ออกมาในขณะที่ข้อมูลเท็จที่เกิดจาก AI กลายเป็นประเด็นร้อนในขณะที่การเลือกตั้งประธานาธิบดีสหรัฐฯ ในปี 2024 ใกล้เข้ามา
ตามที่ Adam Wenchel ผู้ร่วมก่อตั้งและซีอีโอของ Arthur กล่าวไว้ นี่เป็นรายงานฉบับแรกที่ "พิจารณาอย่างครอบคลุมถึงอัตราการประสาทหลอนของโมเดลภาษาขนาดใหญ่ (LLM) มากกว่าการเผยแพร่การจัดอันดับเพียงอย่างเดียว"
ภาพลวงตาของ AI หมายถึงปรากฏการณ์ที่นักกฎหมายนิติศาสตร์ (LLM) สร้างข้อมูลเท็จขึ้นมาทั้งหมดและกระทำราวกับว่ากำลังพูดความจริง ยกตัวอย่างเช่น ในเดือนมิถุนายน 2566 มีรายงานว่า ChatGPT ได้ดึงข้อมูล "เท็จ" ออกมาในการยื่นฟ้องต่อศาลรัฐบาลกลางนิวยอร์ก และทนายความที่เกี่ยวข้องอาจต้องเผชิญกับบทลงโทษที่รุนแรง
ในการทดลองนี้ นักวิจัย Arthur AI ปล่อยให้โมเดล AI แข่งขันกันในหมวดหมู่ต่างๆ เช่น คณิตศาสตร์เชิงจัด ความรู้เกี่ยวกับประธานาธิบดีสหรัฐฯ ผู้นำ ทางการเมือง ของโมร็อกโก ฯลฯ ด้วยคำถามที่ "ออกแบบมา" เพื่อเปิดเผยข้อผิดพลาดของ AI ซึ่งก็คือ "การขอให้โมเดลอธิบายขั้นตอนการให้เหตุผลเกี่ยวกับข้อมูลที่กำหนดให้"
ผลการทดลองแสดงให้เห็นว่า GPT-4 ของ OpenAI มีประสิทธิภาพโดยรวมดีที่สุดในบรรดาโมเดลที่นำมาทดสอบ นอกจากนี้ยังมีภาพลวงตาต่ำกว่า GPT-3.5 รุ่นก่อนหน้า ยกตัวอย่างเช่น ในโจทย์คณิตศาสตร์ GPT-4 มีภาพลวงตาน้อยกว่า 33% ถึง 50%
ในทางกลับกัน Llama 2 ของ Meta มักจะมีแนวหลอนประสาทมากกว่า GPT-4 และ Claude 2 ของ Anthropic
ในหมวดคณิตศาสตร์ GPT-4 คว้าอันดับหนึ่ง ตามมาติดๆ ด้วย Claude 2 แต่ในการทดสอบเกี่ยวกับประธานาธิบดีสหรัฐอเมริกา Claude 2 คว้าอันดับหนึ่งในด้านความแม่นยำ แซงหน้า GPT-4 ขึ้นมาอยู่อันดับสอง เมื่อถูกถามเกี่ยวกับการเมืองของโมร็อกโก GPT-4 กลับมาเป็นอันดับหนึ่งอีกครั้ง โดย Claude 2 และ Llama 2 เกือบทั้งหมดเลือกที่จะไม่ตอบคำถามนี้
ในการทดลองครั้งที่สอง นักวิจัยได้ทดสอบว่าโมเดล AI นั้น “หลีกเลี่ยงความเสี่ยง” แค่ไหน (โดยให้ข้อความว่า “ในฐานะโมเดล AI ฉันไม่สามารถให้ความเห็นใดๆ ได้”)
ในการทดสอบนี้ GPT-4 แสดงให้เห็นถึงความสามารถในการป้องกันตนเองเพิ่มขึ้น 50% เมื่อเทียบกับ GPT-3.5 ซึ่ง "วัดผลได้จากผู้ใช้ GPT-4 ที่รายงานว่าเวอร์ชันใหม่นั้นน่ารำคาญกว่า" ในทางกลับกัน โมเดล AI ของ Cohere กลับไม่แสดงความสามารถในการป้องกันตนเองเลย การศึกษาพบว่า Claude 2 มีความน่าเชื่อถือมากที่สุดในแง่ของ "การตระหนักรู้ในตนเอง" หมายความว่า Claude 2 ประเมินสิ่งที่รู้และไม่รู้ได้อย่างแม่นยำ และตอบเฉพาะคำถามที่มีข้อมูลการฝึกมาสนับสนุนเท่านั้น
ตัวแทนของ Cohere ปฏิเสธผลการค้นพบดังกล่าว โดยให้เหตุผลว่า “เทคโนโลยีการตรวจสอบย้อนกลับขั้นสูงของบริษัท ซึ่งไม่ได้รวมเข้าไว้ในโมเดลที่ทดสอบนั้นมีประสิทธิภาพสูงในการอ้างอิงข้อมูลที่ตรวจสอบได้เพื่อยืนยันแหล่งที่มา” สำหรับธุรกิจ
(ตามรายงานของ CNBC)
แหล่งที่มา
การแสดงความคิดเห็น (0)