تصویر bài 19.jpg
Felix Yanwei Wang - MIT میں الیکٹریکل انجینئرنگ اور کمپیوٹر سائنس (EECS) میں گریجویٹ طالب علم۔ ماخذ: ایم آئی ٹی نیوز

تصور کریں کہ ایک روبوٹ برتن دھونے میں آپ کی مدد کر رہا ہے۔ آپ اسے سنک سے صابن کا ایک پیالہ نکالنے کے لیے کہتے ہیں، لیکن اس کے گریپرز اسے ٹھیک سے نہیں پکڑتے جہاں ضرورت ہو۔

MIT اور NVIDIA کے محققین کے تیار کردہ ایک نئے طریقہ کار کے فریم ورک کے ساتھ، آپ سادہ اشاروں سے روبوٹ کے رویے کو کنٹرول کر سکتے ہیں۔ آپ پیالے کی طرف اشارہ کر سکتے ہیں یا اسکرین پر راستہ کھینچ سکتے ہیں، یا آسانی سے روبوٹ کے بازو کو صحیح سمت میں دھکیل سکتے ہیں۔

روبوٹ کے رویے میں ترمیم کے دیگر طریقوں کے برعکس، اس تکنیک کے لیے صارفین کو نیا ڈیٹا اکٹھا کرنے اور روبوٹ کو کنٹرول کرنے والے مشین لرننگ ماڈل کو دوبارہ تربیت دینے کی ضرورت نہیں ہے۔ اس کے بجائے، یہ روبوٹ کو ریئل ٹائم، بدیہی انسانی تاثرات استعمال کرنے کی اجازت دیتا ہے تاکہ عمل کی ترتیب کو منتخب کیا جا سکے جو صارف کے ارادوں کے ساتھ بہترین ہم آہنگ ہو۔

جب محققین نے اس طریقہ کار کے فریم ورک کا تجربہ کیا، تو اس کی کامیابی کی شرح ایک متبادل طریقہ سے 21 فیصد زیادہ تھی جس نے انسانی مداخلت کو استعمال نہیں کیا۔

مستقبل میں، طریقہ کار کا یہ فریم ورک صارفین کے لیے فیکٹری سے تربیت یافتہ روبوٹ کو گھر کے مختلف کام کرنے کے لیے رہنمائی کرنا آسان بنا سکتا ہے، چاہے روبوٹ نے اس گھر کے ماحول یا اشیاء کو پہلے کبھی نہ دیکھا ہو۔

"ہم اوسط صارف سے یہ توقع نہیں کر سکتے کہ وہ دستی طور پر ڈیٹا اکٹھا کرے اور نیورل نیٹ ورک ماڈل کو ٹھیک بنائے۔ وہ توقع کریں گے کہ روبوٹ باکس سے باہر کام کرے گا، اور اگر کوئی خرابی پیش آتی ہے، تو انہیں اسے ایڈجسٹ کرنے کے لیے ایک بدیہی میکانزم کی ضرورت ہے۔ یہ وہ چیلنج ہے جس کا ہم نے اس تحقیق میں خطاب کیا،" فیلکس یانوی وانگ، ایک گریجویٹ طالب علم نے کہا۔

انحرافات کو کم سے کم کریں۔

حال ہی میں، محققین نے ایک "پالیسی" سیکھنے کے لیے پہلے سے تربیت یافتہ جنریٹو AI ماڈلز کا استعمال کیا ہے- جو کہ روبوٹ کسی کام کو مکمل کرنے کے لیے پیروی کرتے ہیں۔ یہ ماڈل بہت سے پیچیدہ کاموں کو حل کر سکتے ہیں۔

تربیت کے دوران، ماڈل صرف روبوٹ کی درست حرکتوں کے سامنے آتا ہے، اس لیے یہ مناسب رفتار پیدا کرنا سیکھتا ہے۔

تاہم، اس کا مطلب یہ نہیں ہے کہ روبوٹ کا ہر عمل حقیقت میں صارف کی خواہشات کے مطابق ہوگا۔ مثال کے طور پر، ایک روبوٹ کو شیلف سے بکسوں کو کھٹکھٹائے بغیر بازیافت کرنے کی تربیت دی جا سکتی ہے، لیکن اگر کتابوں کی الماری کی ترتیب تربیت کے دوران دیکھی گئی اس سے مختلف ہو تو وہ کسی کے بک شیلف پر باکس تک پہنچنے میں ناکام ہو سکتا ہے۔

اس طرح کی غلطیوں پر قابو پانے کے لیے، انجینئرز عام طور پر نئے کام پر مزید ڈیٹا اکٹھا کرتے ہیں اور ماڈل کو دوبارہ تربیت دیتے ہیں، یہ ایک مہنگا اور وقت طلب عمل ہے جس کے لیے مشین لرننگ میں مہارت درکار ہوتی ہے۔

اس کے بجائے، MIT میں تحقیقاتی ٹیم صارفین کو روبوٹ کے رویے کو ایڈجسٹ کرنے کی اجازت دینا چاہتی ہے جیسے ہی وہ غلطی کرے.

تاہم، اگر انسان روبوٹ کے فیصلہ سازی کے عمل میں مداخلت کرتے ہیں، تو یہ نادانستہ طور پر جنریٹیو ماڈل کو ایک غلط عمل کا انتخاب کرنے کا سبب بن سکتا ہے۔ روبوٹ صارف کے مطلوبہ باکس کو بازیافت کرسکتا ہے ، لیکن اس عمل میں کتابوں کو شیلف پر دستک دے سکتا ہے۔

فیلکس یانوی وانگ نے کہا، "ہم چاہتے ہیں کہ صارفین ایسی غلطیاں کیے بغیر روبوٹ کے ساتھ بات چیت کریں، اس طرح وہ رویہ حاصل کریں جو صارف کے ارادے کے ساتھ زیادہ مطابقت رکھتا ہو، جبکہ اب بھی درستگی اور فزیبلٹی کو یقینی بنائے،" فیلکس یانوی وانگ نے کہا۔

فیصلہ سازی کی صلاحیتوں کو بڑھانا

اس بات کو یقینی بنانے کے لیے کہ یہ تعامل روبوٹ کو غلط کام کرنے کا سبب نہیں بنتا، تحقیقی ٹیم نے نمونے لینے کا ایک خاص عمل استعمال کیا۔ یہ تکنیک ماڈل کو درست اختیارات کے سیٹ سے ایک ایسی کارروائی منتخب کرنے میں مدد کرتی ہے جو صارف کے مقصد کے لیے بہترین ہو۔

"صارف پر اپنی مرضی مسلط کرنے کے بجائے، ہم روبوٹ کو ان کے ارادوں کو سمجھنے میں مدد کرتے ہیں، اور نمونے لینے کے عمل کو اس کے سیکھے ہوئے طرز عمل میں اتار چڑھاؤ آنے دیتے ہیں،" فیلکس یانوی وانگ نے کہا۔

اس طریقہ کار کی بدولت، ان کے تحقیقی فریم ورک نے نقلی تجربات کے ساتھ ساتھ ایک ماڈل کچن میں حقیقی روبوٹک ہتھیاروں کے ساتھ ٹیسٹنگ میں دیگر طریقوں سے بہتر کارکردگی کا مظاہرہ کیا۔

اگرچہ یہ طریقہ ہمیشہ کام کو فوری طور پر مکمل نہیں کرتا ہے، لیکن یہ صارفین کو ایک اہم فائدہ فراہم کرتا ہے: وہ روبوٹ کو نئی ہدایات دینے سے پہلے کام مکمل کرنے کا انتظار کرنے کے بجائے، غلطی کا پتہ لگتے ہی اسے ٹھیک کر سکتے ہیں۔

مزید برآں، جب صارف روبوٹ کو درست پیالے کو لینے کے لیے رہنمائی کے لیے چند بار آہستہ سے دھکیلتا ہے، تو روبوٹ اس اصلاحی عمل کو یاد رکھ سکتا ہے اور اسے اپنے مستقبل کے سیکھنے کے عمل میں ضم کر سکتا ہے۔ نتیجے کے طور پر، اگلے دن، روبوٹ مزید ہدایات کی ضرورت کے بغیر صحیح پیالے کو اٹھا سکتا ہے۔

"لیکن اس مسلسل بہتری کی کلید یہ ہے کہ صارفین کے روبوٹ کے ساتھ بات چیت کرنے کا طریقہ کار موجود ہے، اور بالکل وہی ہے جو ہم نے اس تحقیق میں ظاہر کیا ہے،" فیلکس یانوی وانگ نے کہا۔

مستقبل میں، تحقیقی ٹیم کا مقصد کارکردگی کو برقرار رکھنے یا بہتر بناتے ہوئے نمونے لینے کے عمل کی رفتار کو بڑھانا ہے۔ وہ روبوٹ کی موافقت کا اندازہ لگانے کے لیے اس طریقے کو نئے ماحول میں بھی آزمانا چاہتے ہیں۔

(ماخذ: ایم آئی ٹی نیوز)