ยิ่งโมเดลแข็งแกร่งเท่าไหร่ "ความคิด" ก็ยิ่งอ่อนแอเท่านั้น?
ในรายงานที่เพิ่งตีพิมพ์ใหม่ นักวิจัยของ Apple ได้ประเมินประสิทธิภาพของ Large Reasoning Models (LRM) เมื่อจัดการกับปัญหาตรรกะที่มีความยากเพิ่มขึ้น เช่น ปัญหาหอคอย แห่งฮานอย หรือปัญหา การข้ามแม่น้ำ
ผลลัพธ์ที่ได้นั้นน่าตกตะลึง: เมื่อต้องเผชิญกับปัญหาที่ซับซ้อนอย่างมาก ความแม่นยำของโมเดล AI ขั้นสูงไม่เพียงแต่ลดลงเท่านั้น แต่ยัง “ลดลงอย่างสิ้นเชิง” อีกด้วย
สิ่งที่น่ากังวลยิ่งกว่าก็คือ ก่อนที่ประสิทธิภาพจะลดลง โมเดลต่างๆ จะเริ่ม... ลดความพยายามในการใช้เหตุผล ซึ่งเป็นพฤติกรรมที่ขัดกับสัญชาตญาณที่ควรต้องใช้การคิดมากขึ้นเมื่อเกิดปัญหาที่ยากกว่า
ในหลายกรณี แม้ว่าจะมีอัลกอริทึมที่เหมาะสม แต่โมเดลก็ยังไม่สามารถผลิตโซลูชันได้ ซึ่งแสดงให้เห็นถึงข้อจำกัดอย่างมากในความสามารถในการปรับตัวและใช้กฎเกณฑ์กับสภาพแวดล้อมใหม่
ความท้าทายของ “ทฤษฎีทั่วไป”
Gary Marcus นักวิชาการชาวอเมริกัน ซึ่งเป็นหนึ่งในผู้ที่ไม่เชื่อมั่นในความสามารถที่แท้จริงของ AI แสดงความคิดเห็นต่อการศึกษาดังกล่าว โดยกล่าวว่าผลการค้นพบของ Apple นั้นเป็น "เรื่องเลวร้ายอย่างยิ่ง"
“ใครก็ตามที่คิดว่าโมเดลภาษาขนาดใหญ่ (LLM) เป็นเส้นทางตรงสู่ AGI ย่อมกำลังหลอกตัวเอง” เขาเขียนไว้ในจดหมายข่าว Substack ส่วนตัวของเขา
นายแอนดรูว์ โรกอยสกี ผู้เชี่ยวชาญจากสถาบันปัญญาประดิษฐ์ที่เน้นมนุษย์เป็นศูนย์กลาง (มหาวิทยาลัยเซอร์เรย์ สหราชอาณาจักร) ซึ่งมีมุมมองเดียวกัน กล่าวว่าการค้นพบครั้งนี้บ่งชี้ถึงความเป็นไปได้ที่อุตสาหกรรมเทคโนโลยีกำลังเข้าสู่ "ทางตัน" โดย "เมื่อโมเดลทำงานได้ดีกับปัญหาที่เรียบง่ายและทั่วๆ ไปเท่านั้น แต่ล้มเหลวอย่างสิ้นเชิงเมื่อความยากเพิ่มขึ้น ชัดเจนว่าแนวทางปัจจุบันมีปัญหา"
ประเด็นหนึ่งที่ Apple เน้นย้ำเป็นพิเศษก็คือการขาด “การใช้เหตุผลโดยทั่วไป” ซึ่งหมายถึงความสามารถในการขยายความเข้าใจจากสถานการณ์เฉพาะไปสู่สถานการณ์ที่คล้ายคลึงกัน
เมื่อไม่สามารถถ่ายทอดความรู้ในลักษณะที่มนุษย์ทั่วไปทำได้ โมเดลปัจจุบันมักจะใช้วิธี "เรียนรู้แบบท่องจำ" คือ เก่งในการทำซ้ำรูปแบบต่างๆ แต่อ่อนแอในการคิดแบบตรรกะหรือการนิรนัย
ในความเป็นจริง การศึกษาพบว่าโมเดลเชิงทฤษฎีขนาดใหญ่สิ้นเปลืองทรัพยากรการคำนวณโดยเปล่าประโยชน์ด้วยการแก้ปัญหาที่ง่ายซ้ำๆ ได้อย่างถูกต้อง แต่เลือกวิธีแก้ปัญหาที่ผิดตั้งแต่เริ่มต้นสำหรับปัญหาที่ซับซ้อนกว่าเล็กน้อย
รายงานดังกล่าวได้ทดสอบโมเดลชั้นนำมากมาย รวมถึง o3 ของ OpenAI, Gemini Thinking ของ Google, Claude 3.7 Sonnet-Thinking และ DeepSeek-R1 แม้ว่า Anthropic, Google และ DeepSeek จะไม่ตอบรับคำขอแสดงความคิดเห็น แต่ OpenAI ปฏิเสธที่จะแสดงความคิดเห็น
การวิจัยของ Apple ไม่ได้ปฏิเสธความสำเร็จของ AI ในด้านภาษา วิสัยทัศน์ หรือข้อมูลขนาดใหญ่ แต่ได้เน้นย้ำจุดบอดที่ถูกมองข้ามไป นั่นคือความสามารถในการใช้เหตุผลอย่างมีความหมาย ซึ่งเป็นแก่นแท้ของการบรรลุปัญญาที่แท้จริง
ที่มา: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
การแสดงความคิดเห็น (0)