ภาพที่ 19.jpg
เฟลิกซ์ หยานเว่ย หวัง - นักศึกษาปริญญาเอก สาขาวิศวกรรมไฟฟ้าและ วิทยาการ คอมพิวเตอร์ (EECS) MIT ที่มา: MIT News

ลองนึกภาพหุ่นยนต์กำลังล้างจานให้คุณ คุณขอให้มันหยิบชามสบู่จากอ่างล้างจาน แต่ที่จับของมันดันไปไม่ถึงตำแหน่งที่ถูกต้อง

ด้วยเฟรมเวิร์กใหม่ที่พัฒนาโดยนักวิจัยจาก MIT และ NVIDIA คุณสามารถควบคุมพฤติกรรมของหุ่นยนต์ได้ด้วยท่าทางง่ายๆ คุณสามารถชี้ไปที่ชาม วาดเส้นทางบนหน้าจอ หรือเพียงแค่สะบัดแขนหุ่นยนต์ไปในทิศทางที่ถูกต้อง

ซึ่งแตกต่างจากวิธีการอื่นๆ ในการปรับเปลี่ยนพฤติกรรมของหุ่นยนต์ เทคนิคนี้ไม่จำเป็นต้องให้ผู้ใช้รวบรวมข้อมูลใหม่และฝึกฝนโมเดลการเรียนรู้ของเครื่องที่ควบคุมหุ่นยนต์อีกครั้ง แต่จะช่วยให้หุ่นยนต์ใช้ข้อมูลป้อนกลับของมนุษย์แบบเรียลไทม์ เพื่อเลือกลำดับการกระทำที่ตรงกับความต้องการของผู้ใช้มากที่สุด

เมื่อนักวิจัยทดสอบกรอบงานนี้ อัตราความสำเร็จสูงกว่าวิธีทางเลือกที่ไม่ใช้การแทรกแซงของมนุษย์ถึง 21%

ในอนาคต กรอบงานนี้อาจช่วยให้ผู้ใช้สั่งหุ่นยนต์ที่ได้รับการฝึกอบรมจากโรงงานให้ทำงานบ้านต่างๆ ได้อย่างง่ายดาย แม้ว่าหุ่นยนต์จะไม่เคยเห็นสภาพแวดล้อมหรือวัตถุต่างๆ ในบ้านหลังนั้นมาก่อนก็ตาม

“เราไม่สามารถคาดหวังให้ผู้ใช้ทั่วไปรวบรวมข้อมูลและปรับแต่งแบบจำลองเครือข่ายประสาทเทียมด้วยตัวเองได้ พวกเขาคาดหวังว่าหุ่นยนต์จะทำงานได้ทันทีเมื่อแกะกล่อง และหากมีข้อผิดพลาดเกิดขึ้น พวกเขาจำเป็นต้องมีกลไกที่ใช้งานง่ายเพื่อแก้ไข นี่คือความท้าทายที่เราได้เผชิญในงานวิจัยนี้” เฟลิกซ์ หยานเหว่ย หวัง นักศึกษาปริญญาเอก ภาควิชาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) ที่ MIT และหัวหน้าทีมวิจัยกล่าว

ลดการเบี่ยงเบนให้น้อยที่สุด

เมื่อไม่นานมานี้ นักวิจัยได้ใช้โมเดล AI เชิงสร้างสรรค์ที่ผ่านการฝึกอบรมไว้ล่วงหน้าเพื่อเรียนรู้ “นโยบาย” ซึ่งเป็นชุดกฎที่หุ่นยนต์ปฏิบัติตามเพื่อให้ภารกิจสำเร็จ โมเดลเหล่านี้สามารถรับมือกับงานที่ซับซ้อนได้หลากหลาย

ในระหว่างการฝึกอบรม โมเดลจะได้รับการเปิดเผยเฉพาะการเคลื่อนไหวของหุ่นยนต์ที่ถูกต้องเท่านั้น จึงเรียนรู้ที่จะสร้างวิถีการเคลื่อนไหวที่เหมาะสม

อย่างไรก็ตาม นี่ไม่ได้หมายความว่าทุกการกระทำของหุ่นยนต์จะตรงกับความคาดหวังของผู้ใช้ ตัวอย่างเช่น หุ่นยนต์อาจได้รับการฝึกให้หยิบกล่องจากชั้นวางโดยไม่ทำให้กล่องล้ม แต่อาจเอื้อมไม่ถึงกล่องบนชั้นวางหนังสือของผู้อื่นได้ หากการจัดวางชั้นวางหนังสือแตกต่างจากที่มันเห็นระหว่างการฝึก

เพื่อแก้ไขข้อผิดพลาดดังกล่าว วิศวกรมักจะรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับงานใหม่และฝึกอบรมโมเดลใหม่ ซึ่งเป็นกระบวนการที่ใช้เวลานานและมีค่าใช้จ่ายสูง ซึ่งต้องอาศัยความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง

ในทางกลับกัน ทีม MIT ต้องการให้ผู้ใช้สามารถปรับเปลี่ยนพฤติกรรมของหุ่นยนต์ได้ทันทีที่เกิดข้อผิดพลาด

อย่างไรก็ตาม หากมนุษย์เข้าไปแทรกแซงกระบวนการตัดสินใจของหุ่นยนต์ อาจทำให้โมเดลกำเนิดเลือกการกระทำที่ไม่ถูกต้องโดยไม่ได้ตั้งใจ หุ่นยนต์อาจได้กล่องที่มนุษย์ต้องการ แต่อาจทำหนังสือล้มบนชั้นวางได้

“เราต้องการให้ผู้ใช้โต้ตอบกับหุ่นยนต์โดยไม่เกิดข้อผิดพลาด ซึ่งจะทำให้มีพฤติกรรมที่ตรงกับความตั้งใจของผู้ใช้มากขึ้น ในขณะเดียวกันก็ยังคงรับประกันความถูกต้องและความเป็นไปได้” Felix Yanwei Wang กล่าว

เพิ่มความสามารถในการตัดสินใจ

เพื่อให้แน่ใจว่าการโต้ตอบเหล่านี้จะไม่ทำให้หุ่นยนต์ดำเนินการที่ไม่ถูกต้อง ทีมงานจึงใช้กระบวนการสุ่มตัวอย่างแบบพิเศษ เทคนิคนี้ช่วยให้แบบจำลองเลือกการดำเนินการจากชุดตัวเลือกที่ถูกต้องซึ่งตรงกับเป้าหมายของผู้ใช้มากที่สุด

“แทนที่จะบังคับใช้ความตั้งใจของผู้ใช้ เราช่วยให้หุ่นยนต์เข้าใจความตั้งใจของพวกเขา ขณะเดียวกันก็ปล่อยให้กระบวนการสุ่มตัวอย่างผันผวนไปตามพฤติกรรมที่มันเรียนรู้” Felix Yanwei Wang กล่าว

ด้วยแนวทางนี้ กรอบงานวิจัยของพวกเขาจึงเหนือกว่าวิธีการอื่นๆ ในการทดลองจำลอง รวมถึงการทดสอบด้วยแขนหุ่นยนต์จริงในห้องครัวจำลองอีกด้วย

แม้ว่าวิธีนี้อาจไม่สามารถทำภารกิจให้เสร็จสิ้นทันที แต่ก็มีข้อได้เปรียบที่สำคัญสำหรับผู้ใช้งาน นั่นคือ ผู้ใช้สามารถแก้ไขหุ่นยนต์ได้ทันทีที่พบข้อผิดพลาด แทนที่จะต้องรอให้หุ่นยนต์ทำภารกิจเสร็จก่อนจึงจะให้คำแนะนำใหม่

นอกจากนี้ หลังจากที่ผู้ใช้เขย่าหุ่นยนต์เบาๆ สองสามครั้งเพื่อนำทางให้หยิบชามที่ถูกต้อง หุ่นยนต์ก็จะจดจำการแก้ไขนั้นและนำมารวมเข้ากับการเรียนรู้ในอนาคต ดังนั้น ในวันถัดไป หุ่นยนต์ก็จะหยิบชามที่ถูกต้องได้โดยไม่ต้องได้รับคำแนะนำอีก

“แต่กุญแจสำคัญของการปรับปรุงอย่างต่อเนื่องนี้คือการมีกลไกที่ให้ผู้ใช้โต้ตอบกับหุ่นยนต์ และนั่นคือสิ่งที่เราแสดงให้เห็นอย่างชัดเจนในการวิจัยครั้งนี้” Felix Yanwei Wang กล่าว

ในอนาคต ทีมงานต้องการเร่งกระบวนการสุ่มตัวอย่างให้เร็วขึ้น พร้อมกับรักษาหรือปรับปรุงประสิทธิภาพการทำงาน พวกเขายังต้องการทดสอบวิธีการนี้ในสภาพแวดล้อมใหม่ๆ เพื่อประเมินความสามารถในการปรับตัวของหุ่นยนต์

(ที่มา: MIT News)