
ยิ่งแบบจำลองแข็งแกร่งมากเท่าไหร่ "กระบวนการคิด" ก็ยิ่งอ่อนแอลงเท่านั้นหรือ?
ในรายงานฉบับล่าสุด นักวิจัยของ Apple ได้ประเมินประสิทธิภาพของโมเดลการให้เหตุผลขนาดใหญ่ (LRM) ในการจัดการกับปัญหาตรรกะที่มีระดับความยากเพิ่มขึ้น เช่น ปัญหาหอคอย ฮานอย หรือปัญหา การข้ามแม่น้ำ
ผลลัพธ์ที่ได้นั้นน่าตกใจ: เมื่อเผชิญกับปัญหาที่ซับซ้อนมาก ความแม่นยำของแบบจำลอง AI ขั้นสูงไม่เพียงแต่ลดลงเท่านั้น แต่ยัง "ล่มสลายอย่างสิ้นเชิง" อีกด้วย
สิ่งที่น่ากังวลยิ่งกว่านั้นก็คือ ก่อนที่ประสิทธิภาพจะตกต่ำลง โมเดลเหล่านั้นเริ่มลดความพยายามในการใช้เหตุผล ซึ่งเป็นพฤติกรรมที่ขัดกับสัญชาตญาณ เพราะควรใช้ความคิดมากขึ้นเมื่อต้องเผชิญกับปัญหาที่ยากลำบาก
ในหลายกรณี แม้ว่าจะใช้ขั้นตอนวิธีที่ถูกต้องแล้วก็ตาม โมเดลก็ยังไม่สามารถให้คำตอบได้ ซึ่งแสดงให้เห็นถึงข้อจำกัดอย่างมากในความสามารถในการปรับตัวและนำกฎไปใช้ในสภาพแวดล้อมใหม่
ความท้าทายของ "ทฤษฎีทั่วไป"
แกรี่ มาร์คัส นักวิชาการชาวอเมริกัน หนึ่งในผู้ที่แสดงความสงสัยเกี่ยวกับความสามารถที่แท้จริงของ AI ได้แสดงความคิดเห็นต่อผลการวิจัยของแอปเปิลว่า "น่าตกใจอย่างยิ่ง"
ในจดหมายข่าว Substack ส่วนตัวของเขา เขาได้กล่าวไว้ว่า "ใครก็ตามที่คิดว่าแบบจำลองภาษาขนาดใหญ่ (LLMs) เป็นเส้นทางตรงไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) กำลังหลอกตัวเองอยู่"
แอนดรูว์ โรโกยสกี ผู้เชี่ยวชาญจากสถาบันปัญญาประดิษฐ์ที่เน้นมนุษย์เป็นศูนย์กลาง (มหาวิทยาลัยเซอร์เรย์ สหราชอาณาจักร) เห็นด้วยกับมุมมองนี้ และเชื่อว่าข้อค้นพบนี้ชี้ให้เห็นถึงความเป็นไปได้ที่อุตสาหกรรมเทคโนโลยีกำลังมุ่งหน้าไปสู่ "ทางตัน": "เมื่อแบบจำลองทำงานได้ดีเฉพาะกับปัญหาที่ง่ายและยากปานกลาง แต่ล้มเหลวอย่างสิ้นเชิงเมื่อเจอปัญหาที่ยากขึ้น ก็ชัดเจนว่ามีปัญหาในแนวทางปัจจุบัน"
ประเด็นสำคัญประการหนึ่งที่แอปเปิลเน้นย้ำคือ การขาดความสามารถในการ "ใช้เหตุผลเชิงทั่วไป" ซึ่งหมายถึงความสามารถในการขยายความเข้าใจจากสถานการณ์เฉพาะไปสู่สถานการณ์ที่คล้ายคลึงกัน
เมื่อความรู้ไม่สามารถถ่ายทอดได้ในแบบที่มนุษย์ทำกันโดยทั่วไป รูปแบบการเรียนการสอนในปัจจุบันจึงมักตกอยู่ในภาวะ "การเรียนรู้แบบท่องจำ" ซึ่งเน้นการทำซ้ำๆ แต่ขาดความสามารถในการคิดเชิงตรรกะหรือการอนุมาน
นอกจากนี้ งานวิจัยยังพบว่าแบบจำลองการให้เหตุผลขนาดใหญ่ใช้ทรัพยากรการคำนวณจำนวนมาก โดยจะทำตามขั้นตอนที่ถูกต้องซ้ำๆ สำหรับปัญหาที่ง่าย แต่กลับเลือกวิธีการที่ไม่ถูกต้องตั้งแต่เริ่มต้นสำหรับปัญหาที่ซับซ้อนขึ้นเล็กน้อย
รายงานดังกล่าวได้ทดสอบโมเดลชั้นนำหลายรุ่น รวมถึง o3 ของ OpenAI, Gemini Thinking ของ Google, Claude 3.7 Sonnet-Thinking และ DeepSeek-R1 ขณะที่ Anthropic, Google และ DeepSeek ยังไม่ได้ตอบกลับ ส่วน OpenAI ปฏิเสธที่จะแสดงความคิดเห็น
งานวิจัยของแอปเปิลไม่ได้ปฏิเสธความสำเร็จของ AI ในด้านภาษา ภาพ หรือข้อมูลขนาดใหญ่ อย่างไรก็ตาม งานวิจัยนี้ชี้ให้เห็นถึงจุดบอดที่ถูกมองข้ามไป นั่นคือ ความสามารถในการใช้เหตุผลอย่างแท้จริง ซึ่งเป็นหัวใจสำคัญของการบรรลุถึงสติปัญญาที่แท้จริง
ที่มา: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html








การแสดงความคิดเห็น (0)