image bài 19.jpg
फेलिक्स यानवेई वांग - एमआईटी में इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) के स्नातक छात्र। स्रोत: एमआईटी न्यूज़

कल्पना कीजिए कि एक रोबोट बर्तन धोने में आपकी मदद कर रहा है। आप उससे सिंक से साबुन का कटोरा लाने को कहते हैं, लेकिन उसके पकड़ने वाले अंग सही जगह को ठीक से पकड़ नहीं पाते।

एमआईटी और एनवीडिया के शोधकर्ताओं द्वारा विकसित एक नई कार्यप्रणाली के माध्यम से, आप साधारण इशारों से रोबोट के व्यवहार को नियंत्रित कर सकते हैं। आप कटोरे की ओर इशारा कर सकते हैं, स्क्रीन पर कोई रास्ता बना सकते हैं, या बस रोबोट के हाथ को सही दिशा में धीरे से धकेल सकते हैं।

रोबोट के व्यवहार में बदलाव लाने के अन्य तरीकों के विपरीत, इस तकनीक में उपयोगकर्ताओं को नया डेटा एकत्र करने और रोबोट को नियंत्रित करने वाले मशीन लर्निंग मॉडल को पुनः प्रशिक्षित करने की आवश्यकता नहीं होती है। इसके बजाय, यह रोबोट को वास्तविक समय में सहज मानवीय प्रतिक्रिया का उपयोग करके उन क्रियाओं का क्रम चुनने की अनुमति देता है जो उपयोगकर्ता के इरादों के साथ सबसे अच्छी तरह मेल खाती हैं।

जब शोधकर्ताओं ने इस कार्यप्रणालीगत ढांचे का परीक्षण किया, तो इसकी सफलता दर मानव हस्तक्षेप का उपयोग न करने वाली एक वैकल्पिक विधि की तुलना में 21% अधिक थी।

भविष्य में, यह कार्यप्रणाली ढांचा उपयोगकर्ताओं के लिए कारखाने में प्रशिक्षित रोबोट को विभिन्न घरेलू कार्यों को करने के लिए निर्देशित करना आसान बना सकता है, भले ही रोबोट ने उस घर के वातावरण या वस्तुओं को पहले कभी न देखा हो।

"हम आम उपयोगकर्ता से यह उम्मीद नहीं कर सकते कि वह मैन्युअल रूप से डेटा एकत्र करे और न्यूरल नेटवर्क मॉडल को ठीक करे। वे उम्मीद करेंगे कि रोबोट बिना किसी परेशानी के काम करे, और यदि कोई त्रुटि होती है, तो उन्हें उसे ठीक करने के लिए एक सहज तंत्र की आवश्यकता होगी। यही वह चुनौती है जिसका हमने इस शोध में समाधान किया है," एमआईटी में इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) के स्नातक छात्र और अध्ययन के प्रमुख लेखक फेलिक्स यानवेई वांग ने कहा।

विचलन को कम करें

हाल ही में, शोधकर्ताओं ने पूर्व-प्रशिक्षित जनरेटिव एआई मॉडल का उपयोग करके एक "नीति" (नियमों का एक समूह जिसका पालन रोबोट किसी कार्य को पूरा करने के लिए करते हैं) सीखी है। ये मॉडल कई जटिल कार्यों को हल कर सकते हैं।

प्रशिक्षण के दौरान, मॉडल को केवल वैध रोबोट गतिविधियों के संपर्क में लाया जाता है, इसलिए यह उपयुक्त प्रक्षेप पथ बनाना सीखता है।

हालांकि, इसका मतलब यह नहीं है कि रोबोट की हर क्रिया असल में उपयोगकर्ता की इच्छाओं के अनुरूप होगी। उदाहरण के लिए, एक रोबोट को अलमारियों से बक्से बिना गिराए उठाने के लिए प्रशिक्षित किया जा सकता है, लेकिन अगर किताबों की अलमारी का लेआउट प्रशिक्षण के दौरान देखे गए लेआउट से अलग हो तो वह किसी के बुकशेल्फ़ पर रखे बक्से तक पहुँचने में विफल हो सकता है।

इस तरह की त्रुटियों को दूर करने के लिए, इंजीनियर आमतौर पर नए कार्य पर अधिक डेटा एकत्र करते हैं और मॉडल को पुनः प्रशिक्षित करते हैं, जो एक महंगी और समय लेने वाली प्रक्रिया है जिसके लिए मशीन लर्निंग में विशेषज्ञता की आवश्यकता होती है।

इसके बजाय, एमआईटी की शोध टीम चाहती है कि उपयोगकर्ता रोबोट द्वारा गलती किए जाने के तुरंत बाद उसके व्यवहार को समायोजित कर सकें।

हालांकि, यदि मनुष्य रोबोट की निर्णय लेने की प्रक्रिया में हस्तक्षेप करते हैं, तो इससे अनजाने में जनरेटिव मॉडल गलत कार्रवाई का चुनाव कर सकता है। रोबोट उपयोगकर्ता द्वारा चाहा गया बॉक्स तो उठा सकता है, लेकिन इस प्रक्रिया में शेल्फ पर रखी किताबें गिरा सकता है।

"हम चाहते हैं कि उपयोगकर्ता ऐसी गलतियाँ किए बिना रोबोट के साथ बातचीत करें, जिससे उपयोगकर्ता के इरादे के अनुरूप अधिक व्यवहार प्राप्त हो सके, साथ ही वैधता और व्यवहार्यता भी सुनिश्चित हो सके," फेलिक्स यानवेई वांग ने कहा।

निर्णय लेने की क्षमताओं को बढ़ाना

यह सुनिश्चित करने के लिए कि इन अंतःक्रियाओं के कारण रोबोट कोई गलत कार्य न करे, शोध दल ने एक विशेष नमूनाकरण प्रक्रिया का उपयोग किया। यह तकनीक मॉडल को मान्य विकल्पों के समूह में से उपयोगकर्ता के लक्ष्य के लिए सबसे उपयुक्त क्रिया का चयन करने में मदद करती है।

"उपयोगकर्ता पर अपनी इच्छा थोपने के बजाय, हम रोबोट को उनके इरादों को समझने में मदद करते हैं, और नमूनाकरण प्रक्रिया को उसके द्वारा सीखे गए व्यवहारों के आधार पर उतार-चढ़ाव करने की अनुमति देते हैं," फेलिक्स यानवेई वांग ने कहा।

इस पद्धति की बदौलत, उनके शोध ढांचे ने सिमुलेशन प्रयोगों के साथ-साथ एक मॉडल रसोई में वास्तविक रोबोटिक भुजाओं के साथ परीक्षण में अन्य विधियों से बेहतर प्रदर्शन किया।

हालांकि यह विधि हमेशा कार्य को तुरंत पूरा नहीं करती है, लेकिन यह उपयोगकर्ताओं को एक महत्वपूर्ण लाभ प्रदान करती है: वे रोबोट द्वारा कार्य पूरा करने के बाद नए निर्देश देने की प्रतीक्षा करने के बजाय, गलती का पता चलते ही रोबोट को ठीक कर सकते हैं।

इसके अलावा, जब उपयोगकर्ता रोबोट को सही कटोरा उठाने के लिए कुछ बार धीरे से धक्का देता है, तो रोबोट उस सुधारात्मक क्रिया को याद रख सकता है और उसे अपनी भविष्य की सीखने की प्रक्रिया में शामिल कर सकता है। परिणामस्वरूप, अगले दिन रोबोट बिना किसी अतिरिक्त निर्देश के सही कटोरा उठा सकता है।

"लेकिन इस निरंतर सुधार की कुंजी उपयोगकर्ताओं के लिए रोबोट के साथ बातचीत करने का एक तंत्र होना है, और हमने इस शोध में ठीक यही प्रदर्शित किया है," फेलिक्स यानवेई वांग ने कहा।

भविष्य में, शोध दल का लक्ष्य दक्षता को बनाए रखते हुए या उसमें सुधार करते हुए नमूना लेने की प्रक्रिया की गति को बढ़ाना है। वे रोबोट की अनुकूलन क्षमता का आकलन करने के लिए इस विधि को नए वातावरणों में भी परखना चाहते हैं।

(स्रोत: एमआईटी न्यूज़)