
ในเดือนเมษายน บอท AI ที่จัดการด้านการสนับสนุนด้านเทคนิคสำหรับ Cursor ซึ่งเป็นเครื่องมือใหม่สำหรับโปรแกรมเมอร์ ได้แจ้งให้ลูกค้าบางรายทราบถึงการเปลี่ยนแปลงนโยบายของบริษัท โดยเฉพาะอย่างยิ่งประกาศดังกล่าวระบุว่าไม่อนุญาตให้ใช้ Cursor ในคอมพิวเตอร์มากกว่าหนึ่งเครื่องอีกต่อไป
ลูกค้าได้โพสต์ความโกรธของพวกเขาบนฟอรั่มและโซเชียลมีเดีย บางคนถึงกับยกเลิกบัญชี Cursor ของพวกเขาด้วย อย่างไรก็ตาม บางคนโกรธมากขึ้นเมื่อรู้ว่าเกิดอะไรขึ้น บอท AI ได้ประกาศการเปลี่ยนแปลงนโยบายที่ไม่มีอยู่จริง
“เราไม่มีนโยบายนั้น แน่นอนว่าคุณสามารถใช้ Cursor บนเครื่องหลายเครื่องได้ น่าเสียดายที่นี่เป็นการตอบสนองที่ไม่ถูกต้องจากบอทที่ขับเคลื่อนด้วย AI” Michael Truell ซีอีโอและผู้ก่อตั้งร่วมของบริษัทเขียนไว้ในโพสต์บน Reddit
ข้อมูลปลอมอยู่นอกเหนือการควบคุม
มากกว่าสองปีหลังจากการเปิดตัว ChatGPT บริษัทด้านเทคโนโลยี พนักงานออฟฟิศ และผู้บริโภคทั่วไปต่างก็ใช้ AI bots สำหรับงานที่หลากหลายและความถี่เพิ่มขึ้นเรื่อยๆ
อย่างไรก็ตามไม่มีวิธีใดที่จะรับประกันได้ว่าระบบเหล่านี้ให้ข้อมูลที่ถูกต้อง มีข้อขัดแย้งที่ว่าเทคโนโลยีใหม่ที่ทรงพลังที่สุด ซึ่งเรียกว่าระบบ "อนุมาน" จากบริษัทต่างๆ เช่น OpenAI, Google และ DeepSeek กลับสร้างข้อผิดพลาดเพิ่มมากขึ้น
![]() |
บทสนทนา GPT ไร้สาระที่ผู้ใช้ถามว่าสุนัขควรกินซีเรียลหรือไม่ ภาพ: Reddit |
แม้ว่าทักษะทางคณิตศาสตร์จะพัฒนาขึ้นอย่างมาก แต่ความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) ในการจับภาพความจริงกลับไม่มั่นคงเหมือนเดิม ที่น่าสังเกตคือ แม้แต่วิศวกรเองก็ยังไม่รู้เลยว่าเหตุใดจึงทำเช่นนั้น
ตามที่ นิวยอร์กไทมส์ รายงาน ปัจจุบันแชทบอท AI อาศัยระบบคณิตศาสตร์ที่ซับซ้อนเพื่อเรียนรู้ทักษะโดยการวิเคราะห์ข้อมูลดิจิทัลจำนวนมหาศาล อย่างไรก็ตามพวกเขาไม่สามารถตัดสินใจได้ว่าอะไรถูกหรือผิด
จากนั้นก็เกิดภาวะ “ภาพหลอน” หรือข้อมูลที่ตัวเองสร้างขึ้นมาเอง ในความเป็นจริง ตามการวิจัยพบว่า LLM ล่าสุดนั้น "ลวงตา" มากกว่ารุ่นเก่าบางรุ่นเสียอีก
โดยเฉพาะในรายงานล่าสุด OpenAI ค้นพบว่าโมเดล o3 "เกิดภาพหลอน" เมื่อตอบคำถาม 33% ใน PersonQA ซึ่งเป็นมาตรฐานภายในของบริษัทในการวัดความแม่นยำของความรู้เกี่ยวกับมนุษย์ของโมเดล
เมื่อเปรียบเทียบแล้ว นี่เป็นสองเท่าของอัตรา "ภาพหลอน" ของโมเดลการใช้เหตุผลก่อนหน้านี้ของ OpenAI ซึ่งคือ o1 และ o3-mini ซึ่งอยู่ที่ 16% และ 14.8% ตามลำดับ ในขณะเดียวกัน โมเดล o4-mini ทำได้แย่กว่าใน PersonQA โดยประสบกับ "อาการประสาทหลอน" สูงถึง 48% ของระยะเวลาการทดสอบ
ที่น่ากังวลยิ่งกว่านั้นคือ “บิดาแห่ง ChatGPT” ไม่รู้จริงๆ ว่าเหตุใดเหตุการณ์นี้จึงเกิดขึ้น โดยเฉพาะในรายงานทางเทคนิคเกี่ยวกับ o3 และ o4-mini OpenAI เขียนว่า "จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าเหตุใด 'ภาพลวงตา' จึงแย่ลง" เมื่อมีการปรับขนาดโมเดลการใช้เหตุผล
o3 และ o4-mini ทำงานได้ดีขึ้นในบางพื้นที่ รวมถึงการเขียนโปรแกรมและงานที่เกี่ยวข้องกับคณิตศาสตร์ อย่างไรก็ตาม เนื่องจากมีความจำเป็นต้อง "เสนอข้อเรียกร้องมากกว่าการสรุปทั่วไป" ทั้งสองโมเดลจึงประสบปัญหาในการสร้างผลลัพธ์ที่ "รวมถึงข้อเรียกร้องที่แม่นยำยิ่งขึ้น แต่ก็รวมถึงข้อเรียกร้องที่ไม่แม่นยำมากขึ้นด้วยเช่นกัน"
“สิ่งนั้นจะไม่มีวันหายไป”
แทนที่จะใช้กฎเกณฑ์ที่เข้มงวดซึ่งกำหนดโดยวิศวกร ระบบ LLM จะใช้ความน่าจะเป็นทางคณิตศาสตร์เพื่อคาดเดาคำตอบที่ดีที่สุด พวกเขาจึงมักทำผิดพลาดอยู่เสมอ
“แม้เราจะพยายามอย่างเต็มที่ แต่โมเดล AI ก็ยังคงหลงผิดอยู่เสมอ สิ่งนี้จะไม่มีวันหายไป” Amr Awadallah อดีตผู้บริหารของ Google กล่าว
![]() |
ตามที่ IBM ระบุ ภาพหลอนเกิดขึ้นเมื่อโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งโดยทั่วไปเป็นแชทบอทหรือเครื่องมือวิทัศน์คอมพิวเตอร์ ได้รับรูปแบบข้อมูลที่ไม่มีอยู่จริงหรือมนุษย์ไม่สามารถจดจำได้ ส่งผลให้ได้ผลลัพธ์ที่ไม่มีความหมายหรือเข้าใจผิดได้ ภาพ: iStock. |
ในรายงานโดยละเอียดเกี่ยวกับการทดลอง OpenAI กล่าวว่าจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจถึงสาเหตุของผลลัพธ์เหล่านี้
เนื่องจากระบบ AI เรียนรู้จากข้อมูลจำนวนมหาศาลมากกว่าที่มนุษย์จะเข้าใจได้ ผู้เชี่ยวชาญจึงอาจกล่าวได้ยากว่าเหตุใดระบบ AI จึงทำงานในลักษณะดังกล่าว
“ภาพหลอนมักเกิดขึ้นบ่อยในโมเดลการอนุมาน แม้ว่าเราจะพยายามอย่างเต็มที่เพื่อลดอุบัติการณ์ที่เกิดขึ้นใน o3 และ o4-mini เราจะยังคงทำงานเกี่ยวกับภาพหลอนในโมเดลทั้งหมดต่อไปเพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือ” Gaby Raila โฆษกของ OpenAI กล่าว
การทดสอบจากบริษัทอิสระและนักวิจัยหลายแห่งแสดงให้เห็นว่าอัตราของภาพลวงตายังเพิ่มขึ้นสำหรับโมเดลอนุมานจากบริษัทเช่น Google หรือ DeepSeek อีกด้วย
ตั้งแต่ปลายปี 2023 บริษัท Vectara ของ Awadallah ได้ติดตามว่าแชทบอตเผยแพร่ข้อมูลเท็จบ่อยแค่ไหน บริษัทขอให้ระบบเหล่านี้ดำเนินการสรุปบทความข่าวเฉพาะอย่างง่ายๆ และสามารถตรวจสอบได้อย่างง่ายดาย ถึงอย่างนั้นแชทบอทก็ยังคงสร้างข้อมูลปลอมต่อไป
โดยเฉพาะอย่างยิ่ง การวิจัยเบื้องต้นของ Vectara ประมาณการว่าในสถานการณ์นี้ แชทบอตจะสร้างข้อมูลปลอมขึ้นอย่างน้อย 3% ของเวลา และบางครั้งอาจมากถึง 27%
ในช่วงปีครึ่งที่ผ่านมา บริษัทต่างๆ เช่น OpenAI และ Google ได้ลดตัวเลขเหล่านี้ลงเหลือประมาณ 1 หรือ 2% ส่วนบริษัทอื่นๆ เช่น Anthropic สตาร์ทอัพจากซานฟรานซิสโก อยู่ที่ราว 4%
อย่างไรก็ตาม อัตราของอาการประสาทหลอนในการทดสอบนี้ยังคงเพิ่มขึ้นอย่างต่อเนื่องสำหรับระบบอนุมาน ความถี่ของระบบอนุมาน R1 ของ DeepSeek ที่เกิดอาการประสาทหลอนเพิ่มขึ้น 14.3% ในขณะที่ o3 ของ OpenAI เพิ่มขึ้น 6.8%
ปัญหาอีกประการหนึ่งก็คือโมเดลอนุมานได้รับการออกแบบมาให้ใช้เวลาในการ "คิด" เกี่ยวกับปัญหาที่ซับซ้อน ก่อนที่จะสรุปคำตอบสุดท้าย
![]() |
Apple ได้แทรกคำเตือนเพื่อป้องกันไม่ให้ AI ปลอมแปลงข้อมูลเข้าไปใน macOS 15.1 เวอร์ชันทดสอบแรก รูปภาพ: Reddit/devanxd2000 |
อย่างไรก็ตาม ข้อเสียก็คือ การพยายามแก้ไขปัญหาทีละขั้นตอนนั้นทำให้โมเดล AI มีความเสี่ยงที่จะเกิดภาพหลอนในแต่ละขั้นตอนมากขึ้นเรื่อยๆ ที่สำคัญกว่านั้น ข้อผิดพลาดสามารถสะสมได้เนื่องจากโมเดลต้องใช้เวลาในการคิดมากขึ้น
บอทรุ่นล่าสุดจะแสดงแต่ละขั้นตอนให้ผู้ใช้เห็น ซึ่งหมายความว่าผู้ใช้สามารถดูข้อผิดพลาดแต่ละรายการได้เช่นกัน นักวิจัยยังพบว่าในหลายกรณี ขั้นตอนการคิดที่แสดงโดยแชทบอทนั้นไม่มีความเกี่ยวข้องกับคำตอบสุดท้ายที่ให้มาเลย
Aryo Pradipta Gema นักวิจัยด้านปัญญาประดิษฐ์จากมหาวิทยาลัยเอดินบะระและผู้สนับสนุน Anthropic กล่าวว่า "สิ่งที่ระบบบอกว่าเป็นการใช้เหตุผลนั้น ไม่จำเป็นต้องเป็นสิ่งที่ระบบคิดจริงๆ"
ที่มา: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
การแสดงความคิดเห็น (0)