ตามรายงานของ TechCrunch หลายคนคิด ว่าโปเกมอน เป็นบททดสอบที่ยากที่สุดสำหรับปัญญาประดิษฐ์ (AI) แต่ความท้าทายด้าน AI ยังไม่สิ้นสุด เมื่อเร็วๆ นี้ นักวิจัยจากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก (สหรัฐอเมริกา) ได้เปิดฉากความท้าทายใหม่ด้วยเกม Super Mario Bros. ผลการวิจัยแสดงให้เห็นว่าไม่ใช่ AI ทุกตัวจะสามารถ "ไปถึงเส้นชัย" ได้สำเร็จ
เกม Mario ถูกนำมาใช้เพื่อทดสอบประสิทธิภาพของโมเดล AI ขนาดใหญ่
ภาพ: ภาพหน้าจอ TECHCRUNCH
Super Mario ถือเป็นความท้าทายครั้งใหญ่สำหรับโมเดล AI
Hao AI Labs ได้นำ AI เข้าสู่ โลก ของ Mario เพื่อทดสอบความสามารถของโมเดลภาษาชั้นนำในปัจจุบัน ผลการทดสอบแสดงให้เห็นว่า Claude 3.7 ของ Anthropic มีประสิทธิภาพดีที่สุด ตามมาด้วย Claude 3.5 ในขณะเดียวกัน Gemini 1.5 Pro ของ Google และ GPT-4o ของ OpenAI กลับมีปัญหาในการเล่นเกมด้วยตนเองมากกว่า
สิ่งที่น่าสังเกตก็คือนี่ไม่ใช่ Super Mario Bros. เวอร์ชันดั้งเดิมปี 1985 เกมนี้ทำงานบนโปรแกรมจำลองที่ผสานรวมกับเฟรมเวิร์ก GamingAgent เพื่อให้ AI ควบคุมมาริโอตัวน้อยได้ GamingAgent ให้คำแนะนำพื้นฐานแก่ AI และภาพหน้าจอของเกม จากนั้น AI จะสร้างโค้ด Python เพื่อควบคุมตัวละคร
Hao AI ระบุว่าเกมนี้บังคับให้โมเดลต้อง 'เรียนรู้' วิธีวางแผนการเคลื่อนไหวที่ซับซ้อนและสร้างกลยุทธ์สำหรับการเล่น ที่น่าสนใจคือ โมเดล 'การใช้เหตุผล' เช่น o1 ของ OpenAI ซึ่งมีประสิทธิภาพมากกว่าในการทดสอบส่วนใหญ่ กลับประสบปัญหามากกว่าโมเดล 'ไม่ใช้เหตุผล'
เหตุผลที่ให้ไว้คือโมเดลการใช้เหตุผลต้องใช้เวลาในการตัดสินใจ ในขณะที่ Super Mario Bros. ต้องใช้ปฏิกิริยาตอบสนองที่รวดเร็ว ความล่าช้าเพียงเสี้ยววินาทีอาจนำไปสู่ความล้มเหลวได้
การใช้เกมเพื่อประเมิน AI มีมานานแล้ว แต่ผู้เชี่ยวชาญหลายคนยังคงกังขาเกี่ยวกับความแม่นยำของวิธีการนี้ พวกเขาโต้แย้งว่าเกมนั้นง่ายเกินไปและให้ข้อมูลมากเกินไปสำหรับการฝึก AI ซึ่งไม่ได้สะท้อนถึงความสามารถที่แท้จริงของ AI ในโลกแห่งความเป็นจริง
Andrej Karpathy นักวิจัย จาก OpenAI เรียกสิ่งนี้ว่า "วิกฤตการประเมิน" เขายอมรับว่าปัจจุบันยังไม่มีมาตรวัดที่แม่นยำสำหรับการประเมินความสามารถของ AI
ในขณะที่การถกเถียงเกี่ยวกับความแม่นยำในการประเมิน AI ผ่านเกมยังคงอยู่ การได้เห็น AI 'ต่อสู้' ในโลกของ Mario ยังคงเป็นประสบการณ์ที่น่าสนใจและช่วยให้ผู้คนเข้าใจความสามารถของ AI ได้ดีขึ้น
การแสดงความคิดเห็น (0)