फोटो 19.jpg
फेलिक्स यानवेई वांग - इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) में पीएचडी छात्र, एमआईटी। स्रोत: एमआईटी न्यूज़

कल्पना कीजिए कि एक रोबोट आपके लिए बर्तन धो रहा है। आप उसे सिंक से साबुन का कटोरा लाने को कहते हैं, लेकिन उसका ग्रिपर सही जगह तक नहीं पहुँच पाता।

एमआईटी और एनवीडिया के शोधकर्ताओं द्वारा विकसित एक नए ढांचे की मदद से, आप रोबोट के व्यवहार को सरल इशारों से नियंत्रित कर सकते हैं। आप किसी कटोरे की ओर इशारा कर सकते हैं, स्क्रीन पर कोई रास्ता बना सकते हैं, या रोबोट के हाथ को सही दिशा में हिला सकते हैं।

रोबोट के व्यवहार को संशोधित करने के अन्य तरीकों के विपरीत, इस तकनीक में उपयोगकर्ता को नया डेटा एकत्र करने और रोबोट को नियंत्रित करने वाले मशीन लर्निंग मॉडल को पुनः प्रशिक्षित करने की आवश्यकता नहीं होती है। इसके बजाय, यह रोबोट को वास्तविक समय में, दृश्य मानवीय प्रतिक्रिया का उपयोग करके उपयोगकर्ता के इरादे से सबसे उपयुक्त क्रिया क्रम चुनने की अनुमति देता है।

जब शोधकर्ताओं ने इस ढांचे का परीक्षण किया, तो इसकी सफलता दर उस वैकल्पिक विधि की तुलना में 21% अधिक थी जिसमें मानवीय हस्तक्षेप का उपयोग नहीं किया गया था।

भविष्य में, यह ढांचा उपयोगकर्ता के लिए फैक्ट्री-प्रशिक्षित रोबोट को विभिन्न घरेलू कार्य करने के निर्देश देना आसान बना सकता है, भले ही रोबोट ने पहले कभी उस घर के वातावरण या वस्तुओं को न देखा हो।

"हम आम उपयोगकर्ताओं से यह उम्मीद नहीं कर सकते कि वे डेटा इकट्ठा करें और न्यूरल नेटवर्क मॉडल को खुद ही ठीक करें। वे उम्मीद करते हैं कि रोबोट तुरंत काम करना शुरू कर देगा, और अगर कुछ गड़बड़ हो जाए, तो उसे ठीक करने के लिए उन्हें एक सहज तंत्र की ज़रूरत होती है। इसी चुनौती का हमने इस शोधपत्र में सामना किया है," एमआईटी के इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान विभाग (ईईसीएस) के पीएचडी छात्र और इस अध्ययन के प्रमुख लेखक फेलिक्स यानवेई वांग कहते हैं।

विचलन को न्यूनतम करें

हाल ही में, शोधकर्ताओं ने पूर्व-प्रशिक्षित जनरेटिव एआई मॉडल का उपयोग करके एक "नीति" सीखी है—नियमों का एक समूह जिसका पालन रोबोट किसी कार्य को पूरा करने के लिए करता है। ये मॉडल कई जटिल कार्यों को संभाल सकते हैं।

प्रशिक्षण के दौरान, मॉडल को केवल वैध रोबोट गतिविधियों के संपर्क में लाया जाता है, ताकि वह उचित गति पथ उत्पन्न करना सीख सके।

हालाँकि, इसका मतलब यह नहीं है कि रोबोट की हर क्रिया उपयोगकर्ता की वास्तविक अपेक्षाओं के अनुरूप होगी। उदाहरण के लिए, किसी रोबोट को शेल्फ से बक्से को बिना गिराए उठाने के लिए प्रशिक्षित किया जा सकता है, लेकिन अगर बुकशेल्फ़ का लेआउट प्रशिक्षण के दौरान देखे गए लेआउट से अलग है, तो वह किसी की बुकशेल्फ़ पर रखे बॉक्स तक पहुँचने में विफल हो सकता है।

ऐसी त्रुटियों को ठीक करने के लिए, इंजीनियर अक्सर नए कार्यों पर अतिरिक्त डेटा एकत्र करते हैं और मॉडल को पुनः प्रशिक्षित करते हैं, जो एक महंगी और समय लेने वाली प्रक्रिया है जिसके लिए मशीन लर्निंग विशेषज्ञता की आवश्यकता होती है।

इसके बजाय, एमआईटी टीम चाहती है कि उपयोगकर्ता गलती होते ही रोबोट के व्यवहार को समायोजित कर सकें।

हालाँकि, अगर कोई इंसान रोबोट की निर्णय लेने की प्रक्रिया में हस्तक्षेप करता है, तो इससे गलती से जनरेटिव मॉडल कोई गलत कदम उठा सकता है। रोबोट को इंसान का मनचाहा बॉक्स तो मिल सकता है, लेकिन इस प्रक्रिया में शेल्फ पर रखी किताबें गिर भी सकती हैं।

फेलिक्स यानवेई वांग ने कहा, "हम चाहते हैं कि उपयोगकर्ता ऐसी गलतियाँ किए बिना रोबोट के साथ बातचीत करें, जिससे ऐसा व्यवहार प्राप्त हो जो उपयोगकर्ता के इरादों से बेहतर मेल खाता हो, साथ ही वैधता और व्यवहार्यता भी सुनिश्चित हो।"

निर्णय लेने की क्षमता बढ़ाएँ

यह सुनिश्चित करने के लिए कि इन अंतःक्रियाओं के कारण रोबोट कोई अवैध कार्य न करे, टीम एक विशेष नमूनाकरण प्रक्रिया का उपयोग करती है। यह तकनीक मॉडल को मान्य विकल्पों के एक समूह में से वह कार्य चुनने में मदद करती है जो उपयोगकर्ता के लक्ष्य से सबसे अच्छी तरह मेल खाता हो।

फेलिक्स यानवेई वांग ने कहा, "उपयोगकर्ता के इरादों को थोपने के बजाय, हम रोबोट को उनके इरादों को समझने में मदद करते हैं, जबकि नमूनाकरण प्रक्रिया को उसके द्वारा सीखे गए व्यवहारों के अनुसार बदलने देते हैं।"

इस दृष्टिकोण के कारण, उनके अनुसंधान ढांचे ने सिमुलेशन प्रयोगों के साथ-साथ मॉडल रसोईघर में वास्तविक रोबोटिक भुजा के साथ परीक्षण में अन्य तरीकों से बेहतर प्रदर्शन किया।

यद्यपि यह विधि हमेशा कार्य को तुरंत पूरा नहीं करती, लेकिन इसका उपयोगकर्ता के लिए एक बड़ा लाभ है: वे त्रुटि देखते ही रोबोट को ठीक कर सकते हैं, बजाय इसके कि उन्हें नए निर्देश देने से पहले रोबोट द्वारा कार्य पूरा करने का इंतजार करना पड़े।

इसके अतिरिक्त, जब उपयोगकर्ता रोबोट को सही कटोरा उठाने के लिए कुछ बार धीरे से धक्का देता है, तो रोबोट उस सुधार को याद रख सकता है और उसे भविष्य में सीखने में शामिल कर सकता है, इसलिए अगले दिन रोबोट बिना किसी निर्देश के सही कटोरा उठा सकता है।

फेलिक्स यानवेई वांग ने कहा, "लेकिन इस निरंतर सुधार की कुंजी उपयोगकर्ताओं के लिए रोबोट के साथ बातचीत करने की एक प्रणाली का होना है, और यही हमने इस शोध में प्रदर्शित किया है।"

भविष्य में, टीम प्रदर्शन को बनाए रखते हुए या उसमें सुधार करते हुए नमूनाकरण प्रक्रिया को तेज़ करना चाहती है। वे रोबोट की अनुकूलन क्षमता का आकलन करने के लिए नए वातावरण में इस पद्धति का परीक्षण भी करना चाहते हैं।

(स्रोत: एमआईटी न्यूज़)