Apple ไม่ยอมลดละความพยายามในการใช้เหตุผลของ AI

งานวิจัยใหม่ของ Apple แสดงให้เห็นถึงความไม่มีประสิทธิภาพของโมเดลการอนุมาน อย่างไรก็ตาม ผู้เชี่ยวชาญกล่าวว่าการค้นพบนี้ไม่ใช่เรื่องใหม่

ZNews•11/06/2025

การวิจัยใหม่ของ Apple เกี่ยวกับโมเดลอนุมานขนาดใหญ่กำลังได้รับความสนใจ ภาพ: Macrumors

เพียงสามปีหลังจากเปิดตัว ปัญญาประดิษฐ์ก็เริ่มปรากฏในกิจกรรมประจำวันต่างๆ มากมาย เช่น การเรียนและการทำงาน หลายคนกลัวว่าอีกไม่นานปัญญาประดิษฐ์ก็จะสามารถเข้ามาแทนที่มนุษย์ได้

อย่างไรก็ตาม โมเดล AI ใหม่ไม่ได้ฉลาดอย่างที่เราคิด ผลการค้นพบจากบริษัทเทคโนโลยีรายใหญ่ช่วยเสริมสร้างความเชื่อดังกล่าว

ทุกคนรู้ว่า “มันยากเกินกว่าจะเพิกเฉย”

ในการศึกษาวิจัยที่เพิ่งตีพิมพ์ใหม่ชื่อว่า “Illusionary Thinking” ทีมวิจัยของ Apple ยืนยันว่าโมเดลการอนุมาน เช่น Claude, DeepSeek-R1 และ o3-mini ไม่ได้ “ขับเคลื่อนโดยสมอง” อย่างที่ชื่อบ่งบอก

คำว่าอนุมานควรแทนที่ด้วยคำว่า "การเลียนแบบ" กลุ่มนี้โต้แย้งว่าโมเดลเหล่านี้มีประสิทธิภาพเพียงในการจดจำและทำซ้ำรูปแบบ แต่เมื่อคำถามเปลี่ยนไปหรือมีความซับซ้อนมากขึ้น โมเดลเหล่านี้ก็แทบจะพังทลายลง

พูดอย่างง่ายๆ ก็คือ แชทบอทจะทำงานได้ดีเมื่อสามารถจดจำและจับคู่รูปแบบได้ แต่เมื่อปัญหามีความซับซ้อนมากเกินไป แชทบอทจะไม่สามารถจัดการได้ “แบบจำลองการใช้เหตุผลขนาดใหญ่ (LRM) ที่ทันสมัยที่สุดจะประสบปัญหาความแม่นยำลดลงอย่างสมบูรณ์เมื่อความซับซ้อนเกินเกณฑ์ที่กำหนด” การศึกษาดังกล่าวระบุ

ซึ่งขัดกับความคาดหวังของนักพัฒนาที่ว่าความซับซ้อนจะเพิ่มขึ้นเมื่อมีทรัพยากรมากขึ้น “ความพยายามในการอนุมาน AI จะเพิ่มขึ้นตามความซับซ้อน แต่เพียงในระดับหนึ่งเท่านั้น จากนั้นจึงลดลง แม้ว่าจะมีงบประมาณโทเค็น (พลังการคำนวณ) เพียงพอที่จะจัดการกับมันก็ตาม” การศึกษาดังกล่าวระบุเพิ่มเติม

ในการศึกษาครั้งนี้ นักวิจัย ได้เปลี่ยนรูปแบบคำถามที่มักใช้ในการตอบคำถามให้แตกต่างไปจากเดิม โดยแทนที่จะใช้แบบทดสอบคณิตศาสตร์แบบปกติ พวกเขาได้นำเสนอปริศนาที่ออกแบบมาอย่างชาญฉลาด เช่น Tower of Hanoi, Checker Jumping, River Crossing และ Blocks World

เกมปริศนาแต่ละเกมมีกฎเกณฑ์ที่เรียบง่ายและชัดเจน โดยมีระดับความซับซ้อนที่แตกต่างกัน เช่น การเพิ่มดิสก์ บล็อก และตัวแทนเพิ่มเติม โมเดลอนุมานทำงานได้ดีขึ้นในระดับความยากปานกลาง แต่จะแพ้เวอร์ชันปกติในระดับง่าย โดยเฉพาะอย่างยิ่ง ทุกอย่างจะพังทลายลงอย่างสมบูรณ์ในระดับความยากสูง ราวกับว่า AI ยอมแพ้แล้ว

ในปัญหาหอคอยแห่ง ฮานอย ทีมงานไม่ได้ปรับปรุงประสิทธิภาพของโมเดลอนุมานมากนัก แม้จะป้อน "ข้อมูล" ให้กับอัลกอริทึมการแก้ปัญหา โมเดลบางตัวสามารถทำงานได้ดีในเกมจนถึงระดับ 100 แต่สามารถผ่านขั้นตอนได้เพียง 5 ขั้นตอนเท่านั้นในปัญหาการข้ามแม่น้ำ

ในหอคอยฮานอย ผู้เล่นจะต้องเคลื่อนที่และเปลี่ยนตำแหน่งของวงกลมตามลำดับขนาด รูปภาพ: Wikipedia

สิ่งนี้ชี้ให้เห็นถึงประสิทธิภาพการอนุมานที่ไม่ดี รวมถึงความเสถียรที่ไม่ดีของโมเดล LRM ท่ามกลางการถกเถียงกันมากมายเกี่ยวกับความสามารถของ AI ในการจับคู่กับมนุษย์ การศึกษาใหม่ของ Apple นี้ได้พิสูจน์ให้เห็นเป็นอย่างอื่น

การค้นพบของ Apple ไม่ใช่เรื่องใหม่

Gary Marcus นักจิตวิทยาและนักเขียนชาวอเมริกัน กล่าวว่าผลการค้นพบของ Apple น่าประทับใจ แต่ก็ไม่ได้ใหม่อะไรมากนัก และเพียงแต่ช่วยสนับสนุนงานวิจัยก่อนหน้านี้เท่านั้น ศาสตราจารย์กิตติคุณด้านจิตวิทยาและประสาทวิทยาแห่งมหาวิทยาลัยนิวยอร์กได้ยกตัวอย่างผลการศึกษาของเขาในปี 1998 มาเป็นตัวอย่าง

ในนั้น เขาทุ่มเถียงว่าเครือข่ายประสาทซึ่งเป็นบรรพบุรุษของโมเดลภาษาขนาดใหญ่ สามารถสรุปผลได้ดีภายในการแจกแจงข้อมูลที่ใช้ฝึก แต่ก็มักจะล่มสลายเมื่อต้องเผชิญกับข้อมูลนอกการแจกแจง

เขายังอ้างถึงข้อโต้แย้งที่เสนอโดย Subbarao Kambhampati นักวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยแห่งรัฐแอริโซนาในช่วงไม่กี่ปีที่ผ่านมา ศาสตราจารย์ Rao เชื่อว่า “ห่วงโซ่ความคิด” และ “โมเดลการอนุมาน” นั้นมีความน่าเชื่อถือโดยเนื้อแท้ต่ำกว่าที่หลายคนคิด

“ผู้คนมักจะมองว่าร่องรอยการอนุมานของรูปแบบภาษาขนาดใหญ่มีลักษณะเหมือนมนุษย์มากเกินไป โดยเรียกร่องรอยเหล่านั้นว่า 'ความคิด' ทั้งๆ ที่ไม่สมควรเรียกเช่นนั้น” ศาสตราจารย์ผู้เขียนรายงานชุดหนึ่งเกี่ยวกับสาเหตุที่ลำดับความคิดที่สร้างขึ้นโดยหลักสูตร LLM ไม่ได้สะท้อนถึงสิ่งที่เกิดขึ้นจริงอย่างแม่นยำเสมอไป กล่าว

งานวิจัยใหม่จาก Apple แสดงให้เห็นว่าแม้แต่โมเดลอนุมานรุ่นล่าสุดก็ยังไม่น่าเชื่อถือหากไม่ได้ใช้ข้อมูลฝึกอบรม มาร์คัสกล่าวว่าโมเดล LLM และ LRM ต่างก็มีประโยชน์และมีประโยชน์ในบางกรณี อย่างไรก็ตาม ผู้ใช้ไม่ควรเชื่อถือผลลัพธ์ใดๆ ของโมเดลเหล่านี้

ที่มา: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html