คำเตือนเกี่ยวกับ ChatGPT ที่มีฤทธิ์หลอนประสาท

ผลการศึกษาล่าสุดแสดงให้เห็นว่า GPT o3 และ o4-mini ซึ่งเป็นโมเดลที่ทรงพลังที่สุดในกลุ่มผลิตภัณฑ์ของ OpenAI สร้างข้อมูลเท็จมากกว่ารุ่นก่อนหน้าเสียอีก

ZNews•20/04/2025

โมเดล ChatGPT สองรุ่นใหม่ที่เพิ่งเปิดตัว มีความถี่ในการสร้างข้อมูลเท็จสูงกว่ารุ่นก่อนหน้า ภาพ: Fireflies

เพียงสองวันหลังจากประกาศ GPT-4.1 โอเพนไอได้เปิดตัวโมเดลใหม่ถึงสองรุ่นอย่างเป็นทางการ ได้แก่ o3 และ o4-mini โดยทั้งสองรุ่นแสดงให้เห็นถึงความสามารถในการให้เหตุผลที่เหนือกว่า พร้อมด้วยการปรับปรุงที่มีประสิทธิภาพมากมาย

อย่างไรก็ตาม ตามรายงานของ TechCrunch โมเดลใหม่ทั้งสองนี้ยังคงมีปัญหาเรื่อง "การหลงผิด" หรือการคิดค้นสิ่งใหม่ๆ ด้วยตนเอง ที่จริงแล้ว พวกมันแสดงอาการหลงผิดมากกว่าโมเดลเก่าๆ บางรุ่นของ OpenAI เสียอีก

จากข้อมูลของ IBM ปรากฏการณ์ภาพหลอนคือปรากฏการณ์ที่แบบจำลองภาษาขนาดใหญ่ (LLM) ซึ่งมักเป็นแชทบอทหรือเครื่องมือประมวลผลภาพ ได้รับรูปแบบข้อมูลที่ไม่ปรากฏอยู่จริงหรือไม่สามารถจดจำได้โดยมนุษย์ ส่งผลให้ได้ผลลัพธ์ที่ไร้ความหมายหรือไม่ถูกต้อง

กล่าวอีกนัยหนึ่ง ผู้ใช้มักคาดหวังว่า AI จะสร้างผลลัพธ์ที่แม่นยำโดยอิงจากข้อมูลที่ใช้ในการฝึกฝน อย่างไรก็ตาม ในบางกรณี ผลลัพธ์ของ AI อาจไม่ได้อิงจากข้อมูลที่แม่นยำ ทำให้เกิดคำตอบที่ "ผิดพลาด"

ในรายงานล่าสุด OpenAI ค้นพบว่า o3 นั้น "ให้คำตอบที่ผิดพลาด" เมื่อตอบคำถาม 33% ใน PersonQA ซึ่งเป็นมาตรฐานภายในของบริษัทสำหรับการวัดความแม่นยำของความรู้ของโมเดลเกี่ยวกับมนุษย์

เมื่อเปรียบเทียบกันแล้ว ตัวเลขนี้เป็นสองเท่าของอัตราการเกิด "ภาพลวงตา" ของโมเดลการให้เหตุผลรุ่นก่อนหน้าของ OpenAI อย่าง o1 และ o3-mini ซึ่งอยู่ที่ 16% และ 14.8% ตามลำดับ ในขณะเดียวกัน โมเดล O4-mini ทำได้แย่กว่านั้นในแบบทดสอบ PersonQA โดยพบ "ภาพลวงตา" เป็นเวลา 48% ของระยะเวลาการทดสอบทั้งหมด

ที่น่ากังวลยิ่งกว่านั้นคือ "บิดาแห่ง ChatGPT" เองก็ไม่รู้สาเหตุที่แท้จริงว่าทำไมจึงเกิดเหตุการณ์เช่นนี้ขึ้น โดยเฉพาะอย่างยิ่ง ในรายงานทางเทคนิคเกี่ยวกับ o3 และ o4-mini นั้น OpenAI ระบุว่า "จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าเหตุใด 'ภาพหลอน' จึงแย่ลง" เมื่อปรับขนาดโมเดลการให้เหตุผล

O3 และ o4-mini มีประสิทธิภาพดีกว่าในบางด้าน รวมถึงการเขียนโปรแกรมและงานทางคณิตศาสตร์ อย่างไรก็ตาม เนื่องจากพวกมันจำเป็นต้อง "สร้างข้อความที่ซับซ้อนกว่าข้อความทั่วไป" ทั้งสองรุ่นจึงส่งผลให้ "ได้ข้อความที่ถูกต้องมากขึ้น แต่ก็มีข้อความที่ไม่ถูกต้องมากขึ้นเช่นกัน"

ที่มา: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html