ตามรายงานของ TechCrunch หลายคนคิด ว่าโปเกมอน คือการทดสอบปัญญาประดิษฐ์ (AI) ที่ยากที่สุด แต่ความท้าทายด้าน AI ไม่ได้หยุดอยู่แค่นั้น เมื่อเร็วๆ นี้ นักวิจัยจากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก (สหรัฐอเมริกา) เพิ่งเปิดตัวความท้าทายใหม่ด้วยเกม Super Mario Bros. ผลการวิจัยแสดงให้เห็นว่าไม่ใช่ AI ทั้งหมดจะสามารถ 'ถึงเส้นชัย' ได้สำเร็จ
เกม Mario ถูกนำมาใช้เพื่อทดสอบประสิทธิภาพของโมเดล AI ขนาดใหญ่
รูปภาพ: ภาพหน้าจอของ TECHCRUNCH
Super Mario ถือเป็นความท้าทายครั้งใหญ่สำหรับโมเดล AI
Hao AI Labs นำ AI เข้าสู่โลก ของ Mario เพื่อทดสอบความสามารถของโมเดลภาษาชั้นนำในปัจจุบัน ผลลัพธ์แสดงให้เห็นว่า Claude 3.7 ของ Anthropic ทำงานได้ดีที่สุด รองลงมาคือ Claude 3.5 ในขณะเดียวกัน Gemini 1.5 Pro ของ Google และ GPT-4o ของ OpenAI พบว่าการเล่นเกมด้วยตนเองนั้นยากกว่า
สิ่งที่น่าสังเกตก็คือนี่ไม่ใช่ Super Mario Bros. เวอร์ชันดั้งเดิมจากปี 1985 เกมนี้ทำงานบนโปรแกรมจำลองที่ผสานกับกรอบงาน GamingAgent เพื่อให้ AI ควบคุม Mario ตัวน้อยได้ GamingAgent ให้คำแนะนำพื้นฐานแก่ AI และภาพหน้าจอของเกม จากนั้น AI จะสร้างโค้ด Python เพื่อควบคุมตัวละคร
ตามที่ Hao AI กล่าวไว้ เกมดังกล่าวบังคับให้โมเดลต้อง "เรียนรู้" วิธีวางแผนการเคลื่อนไหวที่ซับซ้อนและสร้างกลยุทธ์สำหรับการเล่น ที่น่าสนใจคือ โมเดล "การใช้เหตุผล" เช่น o1 ของ OpenAI ซึ่งแข็งแกร่งกว่าในการทดสอบส่วนใหญ่ กลับประสบปัญหามากกว่าโมเดล "ไม่ใช้เหตุผล"
เหตุผลที่ให้มาคือการใช้เหตุผลต้องใช้เวลาในการตัดสินใจ ในขณะที่ เกม Super Mario Bros. ต้องใช้ปฏิกิริยาตอบสนองที่รวดเร็ว ความล่าช้าเพียงเสี้ยววินาทีอาจนำไปสู่ความล้มเหลวได้
การใช้เกมเพื่อประเมิน AI มีมานานแล้ว แต่ผู้เชี่ยวชาญหลายคนยังคงสงสัยเกี่ยวกับความแม่นยำของวิธีการนี้ พวกเขาโต้แย้งว่าเกมนั้นง่ายเกินไปและให้ข้อมูลมากเกินไปในการฝึก AI ซึ่งไม่สะท้อนความสามารถที่แท้จริงของ AI ในโลกแห่งความเป็นจริง
Andrej Karpathy นัก วิจัยที่ OpenAI เรียกสิ่งนี้ว่า ‘วิกฤตการประเมิน’ เขายอมรับว่าปัจจุบันยังไม่มีมาตรวัดที่แม่นยำสำหรับการประเมินความสามารถของ AI
แม้ว่าการถกเถียงเกี่ยวกับความแม่นยำในการประเมิน AI ผ่านเกมยังคงอยู่ แต่การเห็น AI 'ต่อสู้' ในโลกของ Mario ยังคงเป็นประสบการณ์ที่น่าสนใจ และช่วยให้ผู้คนเข้าใจความสามารถของ AI ได้ดีขึ้น
การแสดงความคิดเห็น (0)