โมเดล ChatGPT ที่เพิ่งเปิดตัวใหม่ทั้งสองรุ่นมีความถี่ในการปลอมแปลงข้อมูลสูงกว่ารุ่นก่อนหน้า รูปภาพ: Fireflies |
เพียงสองวันหลังจากประกาศ GPT-4.1 OpenAI ได้เปิดตัวโมเดลใหม่อย่างเป็นทางการไม่ใช่หนึ่งโมเดล แต่มีถึงสองโมเดลที่เรียกว่า o3 และ o4-mini โมเดลทั้งสองนี้แสดงให้เห็นถึงความสามารถในการอนุมานที่เหนือกว่าด้วยการปรับปรุงที่ทรงพลังหลายประการ
อย่างไรก็ตาม ตามรายงานของ TechCrunch โมเดลใหม่ทั้งสองนี้ยังคงประสบปัญหา "ภาพหลอน" หรือการสร้างข้อมูลเท็จ โดยที่จริงแล้ว โมเดลทั้งสองนี้ประสบปัญหา "ภาพหลอน" มากกว่าโมเดลเก่าๆ ของ OpenAI เสียอีก
ตามที่ IBM ระบุ ภาพหลอนเกิดขึ้นเมื่อโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งโดยทั่วไปเป็นแชทบอทหรือเครื่องมือวิทัศน์คอมพิวเตอร์ ได้รับรูปแบบข้อมูลที่ไม่มีอยู่จริงหรือมนุษย์ไม่สามารถจดจำได้ ส่งผลให้ได้ผลลัพธ์ที่ไม่มีความหมายหรือเข้าใจผิดได้
กล่าวอีกนัยหนึ่ง ผู้ใช้มักขอให้ AI สร้างผลลัพธ์ที่แม่นยำโดยอิงจากข้อมูลการฝึกอบรม อย่างไรก็ตาม ในบางกรณี ผลลัพธ์ของ AI ไม่ได้ขึ้นอยู่กับข้อมูลที่แม่นยำ ทำให้เกิดการตอบสนองที่ "ลวงตา"
ในรายงานล่าสุด OpenAI พบว่า o3 "เกิดภาพหลอน" เมื่อตอบคำถาม 33% ใน PersonQA ซึ่งเป็นเกณฑ์มาตรฐานภายในของบริษัทในการวัดความแม่นยำของความรู้ของโมเดลเกี่ยวกับมนุษย์
เมื่อเปรียบเทียบกันแล้ว พบว่าเป็นสองเท่าของอัตรา "ภาพหลอน" ของโมเดลการใช้เหตุผลก่อนหน้านี้ของ OpenAI ซึ่งได้แก่ o1 และ o3-mini ซึ่งประสบปัญหา 16% และ 14.8% ตามลำดับ ในขณะเดียวกัน โมเดล O4-mini ทำงานได้แย่กว่าใน PersonQA โดยประสบปัญหา "ภาพหลอน" 48% ของเวลาทั้งหมด
ที่น่าเป็นห่วงยิ่งกว่านั้นก็คือ “บิดาแห่ง ChatGPT” ไม่รู้จริงๆ ว่าเหตุใดสิ่งนี้จึงเกิดขึ้น โดยเฉพาะอย่างยิ่งในรายงานทางเทคนิคเกี่ยวกับ o3 และ o4-mini OpenAI เขียนว่า “จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าเหตุใด “ภาพลวงตา” จึงแย่ลง” เมื่อโมเดลการใช้เหตุผลขยายขนาด
o3 และ o4-mini ทำงานได้ดีขึ้นในบางพื้นที่ รวมถึงการเขียนโปรแกรมและงานที่เกี่ยวข้องกับคณิตศาสตร์ อย่างไรก็ตาม เนื่องจากจำเป็นต้อง "สร้างคำชี้แจงมากกว่าการสรุปทั่วไป" ทั้งสองโมเดลจึงประสบปัญหาในการสร้าง "คำชี้แจงที่ถูกต้องมากขึ้น แต่ในขณะเดียวกันก็สร้างคำชี้แจงที่ไม่ถูกต้องมากขึ้นด้วย"
ที่มา: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html
การแสดงความคิดเห็น (0)