تصویر 19.jpg
Felix Yanwei Wang - الیکٹریکل انجینئرنگ اور کمپیوٹر سائنس (EECS)MIT میں پی ایچ ڈی کا طالب علم۔ ماخذ: ایم آئی ٹی نیوز

تصور کریں کہ ایک روبوٹ برتن دھونے میں آپ کی مدد کر رہا ہے۔ آپ اسے سنک سے صابن کا ایک پیالہ لینے کو کہتے ہیں، لیکن اس کا گرپر بالکل نہیں پکڑتا جہاں اسے ضرورت ہوتی ہے۔

MIT اور NVIDIA کے محققین کے تیار کردہ ایک نئے فریم ورک کے ساتھ، آپ سادہ اشاروں سے روبوٹ کے رویے کو کنٹرول کر سکتے ہیں۔ آپ کسی پیالے کی طرف اشارہ کر سکتے ہیں یا اسکرین پر راستہ کھینچ سکتے ہیں، یا صرف روبوٹ کے بازو کو صحیح سمت میں ہلا سکتے ہیں۔

روبوٹ کے رویے کو تبدیل کرنے کے دیگر طریقوں کے برعکس، اس تکنیک کے لیے صارف کو نیا ڈیٹا اکٹھا کرنے اور مشین لرننگ ماڈل کو دوبارہ تربیت دینے کی ضرورت نہیں ہے جو روبوٹ کو کنٹرول کرتا ہے۔ اس کے بجائے، یہ روبوٹ کو ریئل ٹائم، بصری انسانی تاثرات استعمال کرنے کی اجازت دیتا ہے تاکہ عمل کی ترتیب کو منتخب کیا جا سکے جو صارف کے ارادے سے بہترین میل کھاتا ہو۔

جب محققین نے اس فریم ورک کا تجربہ کیا تو اس کی کامیابی کی شرح ایک متبادل نقطہ نظر سے 21 فیصد زیادہ تھی جس میں انسانی مداخلت کا استعمال نہیں کیا گیا۔

مستقبل میں، یہ فریم ورک صارف کے لیے فیکٹری سے تربیت یافتہ روبوٹ کو گھر کے مختلف کام کرنے کی ہدایت دینا آسان بنا سکتا ہے، چاہے روبوٹ نے اس گھر کے ماحول یا اشیاء کو پہلے کبھی نہ دیکھا ہو۔

"ہم عام صارفین سے ڈیٹا اکٹھا کرنے اور نیورل نیٹ ورک کے ماڈل کو ٹھیک کرنے کی توقع نہیں کر سکتے۔ وہ توقع کرتے ہیں کہ روبوٹ باکس سے باہر کام کرے گا، اور اگر کچھ غلط ہو جاتا ہے، تو انہیں اسے درست کرنے کے لیے ایک بدیہی میکانزم کی ضرورت ہے۔ یہ وہ چیلنج ہے جس سے ہم نے اس مقالے میں نمٹا ہے،" فیلکس یانوی وانگ کہتے ہیں، جو الیکٹریکل انجینئرنگ اور کمپیوٹر سائنس کے شعبہ کے لیڈ مصنف ہیں۔

انحراف کو کم سے کم کریں۔

حال ہی میں، محققین نے ایک "پالیسی" سیکھنے کے لیے پہلے سے تربیت یافتہ جنریٹو AI ماڈلز کا استعمال کیا ہے—قواعد کا ایک مجموعہ جس کی پیروی ایک روبوٹ کسی کام کو مکمل کرنے کے لیے کرتا ہے۔ یہ ماڈل بہت سے پیچیدہ کاموں کو حل کر سکتے ہیں۔

تربیت کے دوران، ماڈل صرف روبوٹ کی درست حرکتوں کے سامنے آتا ہے، اس لیے یہ مناسب حرکت کی رفتار پیدا کرنا سیکھتا ہے۔

تاہم، اس کا مطلب یہ نہیں ہے کہ روبوٹ کی ہر کارروائی صارف کی حقیقی توقعات کے مطابق ہوگی۔ مثال کے طور پر، ایک روبوٹ کو تربیت دی جا سکتی ہے کہ وہ شیلف سے بکس اٹھائے بغیر اسے کھٹکھٹائے، لیکن اگر کتابوں کے شیلف کی ترتیب تربیت کے دوران دیکھی گئی اس سے مختلف ہو تو وہ کسی کے بک شیلف پر باکس تک پہنچنے میں ناکام ہو سکتا ہے۔

ایسی غلطیوں کو ٹھیک کرنے کے لیے، انجینئر اکثر نئے کاموں پر اضافی ڈیٹا اکٹھا کرتے ہیں اور ماڈل کو دوبارہ تربیت دیتے ہیں، یہ ایک مہنگا اور وقت طلب عمل ہے جس کے لیے مشین لرننگ کی مہارت کی ضرورت ہوتی ہے۔

اس کے بجائے، MIT ٹیم صارفین کو اجازت دینا چاہتی ہے کہ وہ روبوٹ کے رویے کو جیسے ہی غلطی کرے اسے ایڈجسٹ کریں۔

تاہم، اگر کوئی انسان روبوٹ کے فیصلہ سازی کے عمل میں مداخلت کرتا ہے، تو یہ حادثاتی طور پر جنریٹو ماڈل کو ایک غلط عمل کا انتخاب کرنے کا سبب بن سکتا ہے۔ روبوٹ کو وہ باکس مل سکتا ہے جو انسان چاہتا ہے، لیکن اس عمل میں کتابوں کو شیلف پر دستک دے سکتا ہے۔

فیلکس یانوی وانگ نے کہا، "ہم چاہتے ہیں کہ صارفین ایسی غلطیاں کیے بغیر روبوٹ کے ساتھ بات چیت کریں، اس طرح وہ رویہ حاصل کریں جو صارف کے ارادوں سے بہتر طور پر میل کھاتا ہو، جبکہ اب بھی درستگی اور فزیبلٹی کو یقینی بناتا ہے،" فیلکس یانوی وانگ نے کہا۔

فیصلہ سازی کی صلاحیت کو بڑھانا

اس بات کو یقینی بنانے کے لیے کہ یہ تعاملات روبوٹ کو غلط اقدامات کرنے کا سبب نہ بنیں، ٹیم نمونے لینے کا ایک خاص طریقہ استعمال کرتی ہے۔ یہ تکنیک ماڈل کو درست انتخاب کے ایک سیٹ سے کارروائی کا انتخاب کرنے میں مدد کرتی ہے جو صارف کے اہداف سے بہترین میل کھاتا ہے۔

"صارف کے ارادوں کو مسلط کرنے کے بجائے، ہم روبوٹ کو ان کے ارادوں کو سمجھنے میں مدد کرتے ہیں، جبکہ نمونے لینے کے عمل کو اس کے سیکھے ہوئے طرز عمل میں اتار چڑھاؤ آنے دیتے ہیں،" فیلکس یانوی وانگ نے کہا۔

اس نقطہ نظر کی بدولت، ان کے تحقیقی فریم ورک نے نقلی تجربات کے ساتھ ساتھ ماڈل کچن میں ایک حقیقی روبوٹک بازو کے ساتھ ٹیسٹنگ میں دیگر طریقوں سے بہتر کارکردگی کا مظاہرہ کیا۔

اگرچہ یہ طریقہ ہمیشہ کام کو فوری طور پر مکمل نہیں کرتا ہے، لیکن اس کا صارف کے لیے ایک بڑا فائدہ ہے: وہ روبوٹ کو کام کے مکمل ہونے کا انتظار کرنے اور پھر نئی ہدایات دینے کے بجائے، غلطی کا پتہ لگتے ہی اسے درست کر سکتے ہیں۔

مزید برآں، جب صارف روبوٹ کو درست پیالے کو لینے کے لیے رہنمائی کے لیے چند بار نرمی سے دھکیلتا ہے، تو روبوٹ اس اصلاح کو یاد رکھ سکتا ہے اور اسے مستقبل کے سیکھنے میں شامل کر سکتا ہے، اس لیے اگلے دن روبوٹ دوبارہ رہنمائی کی ضرورت کے بغیر درست پیالے کو اٹھا سکتا ہے۔

"لیکن اس مسلسل بہتری کی کلید یہ ہے کہ صارفین کے روبوٹ کے ساتھ بات چیت کرنے کے لیے ایک طریقہ کار موجود ہو، اور بالکل وہی ہے جو ہم نے اس تحقیق میں ظاہر کیا ہے،" فیلکس یانوی وانگ نے کہا۔

مستقبل میں، ٹیم کارکردگی کو برقرار رکھنے یا بہتر بناتے ہوئے نمونے لینے کے عمل کو تیز کرنا چاہتی ہے۔ وہ روبوٹ کی موافقت کا اندازہ لگانے کے لیے نئے ماحول میں اس طریقہ کو بھی جانچنا چاہتے ہیں۔

(ماخذ: ایم آئی ٹی نیوز)