
ในเดือนเมษายน บอท AI ที่ทำหน้าที่ให้การสนับสนุนทางเทคนิคสำหรับ Cursor ซึ่งเป็นเครื่องมือที่กำลังเติบโตสำหรับโปรแกรมเมอร์ ได้แจ้งเตือนลูกค้าบางรายเกี่ยวกับการเปลี่ยนแปลงนโยบายของบริษัท โดยเฉพาะอย่างยิ่ง การแจ้งเตือนระบุว่าพวกเขาไม่ได้รับอนุญาตให้ใช้ Cursor บนคอมพิวเตอร์มากกว่าหนึ่งเครื่องอีกต่อไป
ในฟอรัมและโซเชียลมีเดีย ลูกค้าต่างโพสต์ข้อความแสดงความโกรธ บางคนถึงกับยกเลิกบัญชี Cursor ของตนเอง อย่างไรก็ตาม บางคนยิ่งโกรธมากขึ้นเมื่อรู้ว่าเกิดอะไรขึ้น: บอท AI ประกาศการเปลี่ยนแปลงนโยบายที่ไม่มีอยู่จริง
"เราไม่มีนโยบายแบบนั้น คุณสามารถใช้ Cursor บนเครื่องหลายเครื่องได้ตามปกติ น่าเสียดายที่นี่เป็นคำตอบที่ไม่ถูกต้องจากบอทที่ใช้ AI ช่วย" ไมเคิล ทรูเอล ซีอีโอและผู้ร่วมก่อตั้งบริษัท เขียนไว้ในโพสต์บน Reddit
การแพร่กระจายของข่าวปลอมนั้นรุนแรงและควบคุมไม่ได้
กว่าสองปีหลังจากที่ ChatGPT ถือกำเนิดขึ้น บริษัทเทคโนโลยี พนักงานออฟฟิศ และผู้บริโภคทั่วไป ต่างก็ใช้บอท AI สำหรับงานต่างๆ มากขึ้นเรื่อยๆ
อย่างไรก็ตาม ยังไม่มีวิธีใดรับประกันได้ว่าระบบเหล่านี้จะสร้างข้อมูลที่ถูกต้องแม่นยำ ในทางกลับกัน เทคโนโลยีใหม่ล่าสุดและทรงพลังที่สุด หรือที่เรียกว่าระบบ "การอนุมาน" จากบริษัทต่างๆ เช่น OpenAI, Google และ DeepSeek กลับสร้างข้อผิดพลาดมากขึ้นเสียด้วยซ้ำ
![]() |
บทสนทนาไร้สาระบน ChatGPT ที่ผู้ใช้รายหนึ่งถามว่าควรให้อาหารสุนัขด้วยซีเรียลหรือไม่ ภาพ: Reddit |
ตรงกันข้ามกับทักษะทางคณิตศาสตร์ที่พัฒนาขึ้นอย่างมาก ความสามารถของแบบจำลองภาษาขนาดใหญ่ (LLMs) ในการเข้าใจความจริงกลับสั่นคลอนมากขึ้นอย่างน่าประหลาดใจ แม้แต่เหล่าวิศวกรเองก็ยังงงงวยกับสาเหตุนี้
จากรายงานของ นิวยอร์กไทมส์ แชทบอท AI ในปัจจุบันอาศัยระบบทางคณิตศาสตร์ที่ซับซ้อนในการเรียนรู้ทักษะโดยการวิเคราะห์ข้อมูลตัวเลขจำนวนมหาศาล อย่างไรก็ตาม พวกมันไม่สามารถตัดสินได้ว่าอะไรถูกอะไรผิด
จากจุดนั้น ปรากฏการณ์ "ภาพหลอน" หรือการสร้างสรรค์ตนเองก็ปรากฏขึ้น อันที่จริง จากการศึกษาพบว่า LLM รุ่นใหม่ล่าสุดประสบกับ "ภาพหลอน" บ่อยกว่า LLM รุ่นเก่าบางรุ่นเสียอีก
โดยเฉพาะอย่างยิ่ง ในรายงานล่าสุด OpenAI ค้นพบว่าโมเดล o3 นั้น "ให้ผลลัพธ์ที่ผิดพลาด" เมื่อตอบคำถาม 33% ใน PersonQA ซึ่งเป็นมาตรฐานภายในของบริษัทสำหรับการวัดความแม่นยำของความรู้ของโมเดลเกี่ยวกับมนุษย์
เมื่อเปรียบเทียบกันแล้ว ตัวเลขนี้เป็นสองเท่าของอัตราการเกิด "ภาพลวงตา" ของโมเดลการให้เหตุผลรุ่นก่อนหน้าของ OpenAI อย่าง o1 และ o3-mini ซึ่งอยู่ที่ 16% และ 14.8% ตามลำดับ ในขณะเดียวกัน โมเดล o4-mini ทำได้แย่กว่านั้นในแบบทดสอบ PersonQA โดยพบ "ภาพลวงตา" เป็นเวลา 48% ของระยะเวลาการทดสอบทั้งหมด
ที่น่ากังวลยิ่งกว่านั้นคือ "บิดาแห่ง ChatGPT" เองก็ไม่รู้สาเหตุที่แท้จริงว่าทำไมจึงเกิดเหตุการณ์เช่นนี้ขึ้น โดยเฉพาะอย่างยิ่ง ในรายงานทางเทคนิคเกี่ยวกับ o3 และ o4-mini นั้น OpenAI ระบุว่า "จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าเหตุใด 'ภาพหลอน' จึงแย่ลง" เมื่อปรับขนาดโมเดลการให้เหตุผล
o3 และ o4-mini มีประสิทธิภาพดีกว่าในบางด้าน รวมถึงการเขียนโปรแกรมและงานทางคณิตศาสตร์ อย่างไรก็ตาม เนื่องจากพวกมันจำเป็นต้อง "สร้างข้อความที่ซับซ้อนกว่าข้อความทั่วไป" ทั้งสองรุ่นจึงส่งผลให้ "ได้ข้อความที่แม่นยำมากขึ้น แต่ก็มีข้อความที่ไม่แม่นยำมากขึ้นเช่นกัน"
"สิ่งนั้นจะไม่มีวันหายไป"
แทนที่จะใช้ชุดกฎเกณฑ์ที่เข้มงวดซึ่งกำหนดโดยวิศวกร ระบบ LLM ใช้ความน่าจะเป็นทางคณิตศาสตร์เพื่อทำนายผลลัพธ์ที่ดีที่สุด ดังนั้นจึงย่อมมีข้อผิดพลาดเกิดขึ้นบ้างเสมอ
“ถึงแม้เราจะพยายามอย่างเต็มที่แล้วก็ตาม โมเดล AI ก็ยังคงมีโอกาสเกิดภาพลวงตาอยู่เสมอ และสิ่งนี้จะไม่มีวันหายไป” อัมร์ อาวาดัลลาห์ อดีตผู้บริหารของ Google กล่าว
![]() |
จากข้อมูลของ IBM ปรากฏการณ์ภาพหลอนคือปรากฏการณ์ที่แบบจำลองภาษาขนาดใหญ่ (LLMs) ซึ่งมักเป็นแชทบอทหรือเครื่องมือประมวลผลภาพ ได้รับรูปแบบข้อมูลที่ไม่ปรากฏอยู่จริงหรือไม่สามารถจดจำได้โดยมนุษย์ ส่งผลให้ได้ผลลัพธ์ที่ไร้ความหมายหรือไม่ถูกต้อง ภาพ: iStock |
ในเอกสารรายละเอียดเกี่ยวกับการทดลอง OpenAI ระบุว่าจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจสาเหตุของผลลัพธ์เหล่านี้
ผู้เชี่ยวชาญกล่าวว่า เนื่องจากระบบ AI เรียนรู้จากข้อมูลจำนวนมหาศาลเกินกว่าที่มนุษย์จะเข้าใจได้ จึงทำให้การระบุสาเหตุที่พวกมันแสดงพฤติกรรมเช่นนั้นเป็นเรื่องยากมาก
"ภาพลวงตานี้พบได้บ่อยในแบบจำลองการอนุมาน แม้ว่าเราจะกำลังทำงานอย่างแข็งขันเพื่อลดอัตราที่พบใน o3 และ o4-mini ก็ตาม เราจะศึกษาภาพลวงตานี้ต่อไปในทุกแบบจำลองเพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือ" กาบี ไรลา โฆษกของ OpenAI กล่าว
ผลการทดสอบจากบริษัทอิสระและนักวิจัยจำนวนมากแสดงให้เห็นว่า อัตราการเกิดภาพหลอนเพิ่มขึ้นสำหรับโมเดลการอนุมานจากบริษัทต่างๆ เช่น Google หรือ DeepSeek ด้วยเช่นกัน
ตั้งแต่ปลายปี 2023 บริษัท Vectara ของ Awadallah ได้เฝ้าติดตามความถี่ในการเผยแพร่ข้อมูลเท็จของแชทบอท บริษัทได้มอบหมายงานง่ายๆ และตรวจสอบได้ง่ายให้กับระบบเหล่านี้ นั่นคือ การสรุปบทความเฉพาะเรื่องหนึ่ง แต่ถึงกระนั้น แชทบอทก็ยังคงสร้างข้อมูลเท็จอย่างต่อเนื่อง
โดยเฉพาะอย่างยิ่ง การวิจัยเบื้องต้นของ Vectara ประเมินว่า ภายใต้สมมติฐานนี้ แชทบอทจะสร้างข้อมูลเท็จในอย่างน้อย 3% ของกรณี และบางครั้งอาจมากถึง 27%
ในช่วงหนึ่งปีครึ่งที่ผ่านมา บริษัทต่างๆ เช่น OpenAI และ Google ได้ลดตัวเลขเหล่านั้นลงเหลือประมาณ 1 หรือ 2% ในขณะที่บริษัทอื่นๆ เช่น Anthropic สตาร์ทอัพจากซานฟรานซิสโก ยังคงมีตัวเลขอยู่ที่ประมาณ 4%
อย่างไรก็ตาม อัตราการเกิดภาพหลอนในการทดลองนี้ยังคงเพิ่มขึ้นสำหรับระบบการให้เหตุผล โดยระบบการให้เหตุผล R1 ของ DeepSeek เกิดภาพหลอนเพิ่มขึ้น 14.3% ในขณะที่ระบบ o3 ของ OpenAI เพิ่มขึ้น 6.8%
อีกปัญหาหนึ่งคือแบบจำลองการอนุมานถูกออกแบบมาให้ใช้เวลา "คิด" เกี่ยวกับปัญหาที่ซับซ้อนก่อนที่จะได้คำตอบสุดท้าย
![]() |
Apple ได้เพิ่มข้อความแจ้งเตือนเพื่อป้องกันไม่ให้ AI สร้างข้อมูลเท็จในเวอร์ชันเบต้าแรกของ macOS 15.1 ภาพ: Reddit/devanxd2000 |
อย่างไรก็ตาม ข้อเสียคือ เมื่อพยายามแก้ปัญหาทีละขั้นตอน โมเดล AI มีแนวโน้มที่จะพบกับความเข้าใจผิดในแต่ละขั้นตอนมากขึ้น ที่สำคัญกว่านั้นคือ ข้อผิดพลาดอาจสะสมมากขึ้นเมื่อโมเดลใช้เวลาคิดมากขึ้น
บอทรุ่นล่าสุดแสดงขั้นตอนแต่ละขั้นตอนให้ผู้ใช้เห็น ซึ่งหมายความว่าผู้ใช้สามารถเห็นข้อผิดพลาดแต่ละอย่างได้ด้วย นักวิจัยยังพบว่าในหลายกรณี กระบวนการคิดที่แสดงโดยแชทบอทนั้นไม่เกี่ยวข้องกับคำตอบสุดท้ายที่ให้ไว้
"สิ่งที่ระบบบอกว่ากำลังใช้เหตุผลอยู่นั้น อาจไม่ใช่สิ่งที่มันคิดจริงๆ" อาริโอ ปราดิปตา เกมา นักวิจัยด้านปัญญาประดิษฐ์จากมหาวิทยาลัยเอดินบะระ และผู้เขียนบทความให้กับ Anthropic กล่าว
ที่มา: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










การแสดงความคิดเห็น (0)