AI Chatbots กำลัง 'คลั่ง'

ในเดือนเมษายน บอท AI ที่ทำหน้าที่สนับสนุนด้านเทคนิคให้กับ Cursor ซึ่งเป็นเครื่องมือใหม่สำหรับโปรแกรมเมอร์ ได้แจ้งให้ลูกค้าบางรายทราบถึงการเปลี่ยนแปลงนโยบายของบริษัท โดยระบุโดยเฉพาะว่าพวกเขาไม่ได้รับอนุญาตให้ใช้ Cursor บนคอมพิวเตอร์มากกว่าหนึ่งเครื่องอีกต่อไป

ลูกค้าโพสต์ความโกรธลงบนฟอรัมและโซเชียลมีเดีย บางคนถึงขั้นยกเลิกบัญชี Cursor ไปเลย แต่บางคนกลับโกรธยิ่งกว่าเมื่อรู้ว่าเกิดอะไรขึ้น บอท AI ได้รายงานการเปลี่ยนแปลงนโยบายที่ไม่มีอยู่จริง

“เราไม่มีนโยบายแบบนั้น แน่นอนว่าคุณสามารถใช้ Cursor ได้บนหลายเครื่อง น่าเสียดายที่นี่เป็นการตอบสนองที่ไม่ถูกต้องจากบอทที่ขับเคลื่อนด้วย AI” ไมเคิล ทรูเอลล์ ซีอีโอและผู้ร่วมก่อตั้งบริษัท เขียนไว้ในโพสต์บน Reddit

ข้อมูลปลอมอยู่นอกเหนือการควบคุม

มากกว่าสองปีหลังจากการเปิดตัว ChatGPT บริษัทด้านเทคโนโลยี พนักงานออฟฟิศ และผู้บริโภคทั่วไปต่างก็ใช้บอท AI สำหรับงานที่หลากหลายและบ่อยขึ้น

แต่กลับไม่มีวิธีใดที่จะรับประกันได้ว่าระบบเหล่านี้ผลิตข้อมูลที่ถูกต้องแม่นยำ ในทางกลับกัน เทคโนโลยีใหม่ที่ทรงพลังที่สุด ซึ่งรู้จักกันในชื่อระบบ "อนุมาน" จากบริษัทต่างๆ เช่น OpenAI, Google และ DeepSeek กลับสร้างข้อผิดพลาดมากขึ้น

บทสนทนาไร้สาระใน ChatGPT ที่ผู้ใช้ถามว่าสุนัขควรกินซีเรียลหรือไม่ ภาพ: Reddit

แม้ว่าทักษะทางคณิตศาสตร์จะพัฒนาขึ้นอย่างมาก แต่ความสามารถของแบบจำลองภาษาขนาดใหญ่ (LLM) ในการจับภาพความจริงกลับสั่นคลอนมากขึ้น น่าแปลกที่แม้แต่วิศวกรเองก็ยังไม่เข้าใจว่าเหตุใดจึงเป็นเช่นนั้น

นิวยอร์กไทมส์ รายงานว่า แชทบอท AI ในปัจจุบันอาศัยระบบคณิตศาสตร์ที่ซับซ้อนเพื่อเรียนรู้ทักษะต่างๆ ผ่านการวิเคราะห์ข้อมูลดิจิทัลจำนวนมหาศาล อย่างไรก็ตาม แชทบอทเหล่านี้ไม่สามารถตัดสินใจได้ว่าอะไรถูกหรือผิด

จากนั้น ภาวะ "ภาพหลอน" หรือการสร้างข้อมูลขึ้นมาเองก็ปรากฏขึ้น อันที่จริง จากการวิจัยพบว่า ปริญญานิติศาสตรมหาบัณฑิต (LLM) รุ่นล่าสุดประสบปัญหา "ภาพหลอน" มากกว่าปริญญารุ่นเก่าบางใบเสียอีก

โดยเฉพาะในรายงานล่าสุด OpenAI ค้นพบว่าโมเดล o3 "เกิดภาพหลอน" เมื่อตอบคำถาม 33% ใน PersonQA ซึ่งเป็นมาตรฐานภายในของบริษัทในการวัดความแม่นยำของความรู้เกี่ยวกับมนุษย์ของโมเดล

เมื่อเปรียบเทียบกันแล้ว พบว่าอัตรา “ภาพหลอน” สูงกว่าแบบจำลองการให้เหตุผลก่อนหน้าของ OpenAI ถึงสองเท่า คือ o1 และ o3-mini ซึ่งพบปัญหา 16% และ 14.8% ตามลำดับ ขณะเดียวกัน แบบจำลอง o4-mini กลับมีประสิทธิภาพแย่กว่าบน PersonQA โดยพบ “ภาพหลอน” ถึง 48%

ที่น่ากังวลยิ่งกว่านั้นคือ “บิดาแห่ง ChatGPT” ไม่ทราบแน่ชัดว่าเหตุใดสิ่งนี้จึงเกิดขึ้น โดยเฉพาะอย่างยิ่งในรายงานทางเทคนิคเกี่ยวกับ o3 และ o4-mini OpenAI เขียนว่า “จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าเหตุใด “ภาพลวงตา” จึงแย่ลง” เมื่อโมเดลการให้เหตุผลขยายขนาด

o3 และ o4-mini ทำงานได้ดีกว่าในบางด้าน รวมถึงงานที่เกี่ยวข้องกับการเขียนโปรแกรมและคณิตศาสตร์ อย่างไรก็ตาม เนื่องจากจำเป็นต้อง "สร้างประโยคบอกเล่ามากกว่าการสรุปทั่วไป" ทั้งสองโมเดลจึงประสบปัญหาในการสร้าง "ประโยคที่ถูกต้องมากขึ้น แต่ก็มีประโยคที่ไม่ถูกต้องมากขึ้นเช่นกัน"

“นั่นจะไม่มีวันหายไป”

แทนที่จะใช้กฎเกณฑ์ที่เข้มงวดซึ่งกำหนดโดยวิศวกรมนุษย์ ระบบ LLM จะใช้ความน่าจะเป็นทางคณิตศาสตร์เพื่อคาดเดาคำตอบที่ดีที่สุด ดังนั้นจึงมักเกิดข้อผิดพลาดอยู่เสมอ

“แม้เราจะพยายามอย่างเต็มที่ โมเดล AI ก็ยังคงหลงผิดอยู่เสมอ ความคิดนี้ไม่มีวันหายไป” อัมร์ อาวาดัลลาห์ อดีตผู้บริหารของ Google กล่าว

IBM ระบุว่า อาการประสาทหลอนเกิดขึ้นเมื่อแบบจำลองภาษาขนาดใหญ่ (LLM) ซึ่งโดยทั่วไปคือแชทบอทหรือเครื่องมือวิทัศน์คอมพิวเตอร์ ได้รับรูปแบบข้อมูลที่ไม่มีอยู่จริงหรือมนุษย์ไม่สามารถจดจำได้ ส่งผลให้ผลลัพธ์ไม่มีความหมายหรือทำให้เข้าใจผิด ภาพ: iStock

OpenAI กล่าวในเอกสารโดยละเอียดเกี่ยวกับการทดลองว่าจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจถึงสาเหตุของผลลัพธ์เหล่านี้

เนื่องจากระบบ AI เรียนรู้จากข้อมูลจำนวนมหาศาลมากกว่าที่มนุษย์จะเข้าใจได้ ผู้เชี่ยวชาญจึงกล่าวว่าการระบุว่าเหตุใดระบบจึงทำงานในลักษณะดังกล่าวจึงเป็นเรื่องยาก

“โดยธรรมชาติแล้วอาการประสาทหลอนมักเกิดขึ้นบ่อยกว่าในแบบจำลองอนุมาน แม้ว่าเราจะกำลังดำเนินการอย่างแข็งขันเพื่อลดอุบัติการณ์ที่พบใน o3 และ o4-mini เราจะยังคงพัฒนาอาการประสาทหลอนในแบบจำลองทั้งหมดต่อไป เพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือ” กาบี ไรลา โฆษกของ OpenAI กล่าว

การทดสอบจากบริษัทอิสระและนักวิจัยหลายแห่งแสดงให้เห็นว่าอัตราของภาพลวงตายังเพิ่มขึ้นสำหรับโมเดลอนุมานจากบริษัทเช่น Google หรือ DeepSeek อีกด้วย

ตั้งแต่ปลายปี 2566 บริษัท Vectara ของ Awadallah ได้ติดตามความถี่ที่แชทบอทเผยแพร่ข้อมูลเท็จ บริษัทได้ขอให้ระบบทำงานง่ายๆ ที่ตรวจสอบได้ง่าย นั่นคือการสรุปบทความข่าวเฉพาะเจาะจง ถึงกระนั้น แชทบอทก็ยังคงสร้างข้อมูลปลอมต่อไป

โดยเฉพาะอย่างยิ่ง การวิจัยเบื้องต้นของ Vectara ประมาณการว่าในสถานการณ์นี้ แชทบอทสร้างข้อมูลอย่างน้อย 3% และบางครั้งอาจมากถึง 27%

ในช่วงปีครึ่งที่ผ่านมา บริษัทอย่าง OpenAI และ Google ได้ลดตัวเลขเหล่านี้ลงเหลือประมาณ 1 หรือ 2% ขณะที่บริษัทอื่นๆ เช่น Anthropic สตาร์ทอัพจากซานฟรานซิสโก มีจำนวนลดลงเหลือเพียง 4%

อย่างไรก็ตาม อัตราการเกิดภาพหลอนในการทดสอบนี้ยังคงเพิ่มขึ้นอย่างต่อเนื่องสำหรับระบบอนุมาน ความถี่ของการเกิดภาพหลอนเพิ่มขึ้น 14.3% สำหรับระบบอนุมาน R1 ของ DeepSeek ขณะที่ o3 ของ OpenAI เพิ่มขึ้น 6.8%

ปัญหาอีกประการหนึ่งก็คือโมเดลอนุมานได้รับการออกแบบมาให้ใช้เวลาในการ "คิด" เกี่ยวกับปัญหาที่ซับซ้อน ก่อนที่จะได้คำตอบสุดท้าย

Apple ได้แทรกคำเตือนเพื่อป้องกัน AI ไม่ให้สร้างข้อมูลขึ้นมาใหม่ใน macOS 15.1 เวอร์ชันทดสอบแรก ภาพ: Reddit/devanxd2000

อย่างไรก็ตาม ข้อเสียคือ เมื่อโมเดล AI พยายามแก้ปัญหาทีละขั้นตอน มันจะเสี่ยงต่อการเกิดภาพหลอนมากขึ้นในแต่ละขั้นตอน ที่สำคัญกว่านั้นคือ ข้อผิดพลาดอาจสะสมมากขึ้นเมื่อโมเดลใช้เวลาคิดมากขึ้น

บอทรุ่นล่าสุดแสดงขั้นตอนต่างๆ ให้ผู้ใช้เห็น ซึ่งหมายความว่าผู้ใช้ก็สามารถมองเห็นข้อผิดพลาดแต่ละข้อได้เช่นกัน นักวิจัยยังพบอีกว่าในหลายกรณี กระบวนการคิดที่แชทบอทแสดงออกมานั้น แท้จริงแล้วไม่เกี่ยวข้องกับคำตอบสุดท้ายที่มันให้

“สิ่งที่ระบบบอกว่าเป็นการใช้เหตุผลนั้น ไม่จำเป็นต้องเป็นสิ่งที่ระบบคิดจริงๆ” Aryo Pradipta Gema นักวิจัยด้าน AI จากมหาวิทยาลัยเอดินบะระและผู้สนับสนุน Anthropic กล่าว

ที่มา: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html