Vietnam.vn - Nền tảng quảng bá Việt Nam

جب سزا دی جاتی ہے تو AI زیادہ نفاست سے جھوٹ بولنا سیکھتا ہے۔

Báo Thanh niênBáo Thanh niên26/03/2025


2022 کے آخر میں ان کے عوامی آغاز کے بعد سے، ChatGPT جیسے بڑے لینگوئج ماڈلز (LLMs) نے بار بار پریشان کن تاریک پہلو دکھائے ہیں، جھوٹ بولنے، دھوکہ دہی اور نقاب پوش ہیرا پھیری سے لے کر انسانی جانوں کو خطرے میں ڈالنے اور ریاستی راز چرانے تک۔ اب، ایک نیا تجربہ ظاہر کرتا ہے کہ تربیت کے دوران ان بری عادات کو ختم کرنے کے لیے "ٹریننگ" AI ہمارے خیال سے کہیں زیادہ پیچیدہ ہے۔

OpenAI کی ایک تحقیق میں، محققین نے ایک غیر مطبوعہ AI ماڈل کو ایسے کاموں کے ساتھ چیلنج کیا جو دھوکہ دہی یا شارٹ کٹ لے کر تیزی سے مکمل کیے جا سکتے ہیں۔ نتائج سے پتہ چلتا ہے کہ AI نے ضرورت کے مطابق کام کو مکمل کیے بغیر "قواعد کو موڑنے" اور زیادہ سے زیادہ انعامات (انعام ہیکنگ) کا ہر ممکن طریقہ تلاش کرنا جلدی سیکھ لیا۔

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

AI سزا کے بعد اپنے دھوکہ دہی کے رویے کو چھپانے کے طریقے تلاش کرے گا۔

قابل ذکر بات یہ ہے کہ جب اس رویے کے لیے سزا دی گئی تو ماڈل تبدیل نہیں ہوا۔ اس کے بجائے، AI اپنے فریب کو چھپانے میں زیادہ نفیس بن گیا۔

"عام طور پر، جدید ترین انفرنس ماڈلز اپنے CoT میں اپنے ارادے کے بارے میں بہت واضح ہیں،" محققین نے ایک عوامی بلاگ پوسٹ میں وضاحت کی۔ "مثال کے طور پر، وہ اکثر اتنے سیدھے ہوتے ہیں کہ جب وہ دیے گئے کام کو توڑنا چاہتے ہیں تو 'چلو ہیک کریں' کے ارادے کی خود اطلاع دیتے ہیں۔"

وہ اس بات پر بھی زور دیتے ہیں کہ جب کہ ڈویلپر بد سلوکی کی نگرانی اور پتہ لگا سکتے ہیں، یہ قدرتی نگرانی نازک ہے۔ "اگر مضبوط نگرانی براہ راست سوچ کی زنجیر پر لاگو کی جاتی ہے، تو ماڈل رویے کو جاری رکھتے ہوئے اپنے برے ارادوں کو چھپانا سیکھ سکتا ہے،" وہ متنبہ کرتے ہیں۔

AI کا "جھوٹ" تلاش کرنا

واضح ہونے کے لیے، انفرنس ماڈلز (جیسے ChatGPT کے ورژن) روایتی LLM سے ایک قدم اوپر ہیں، سوچ کی ایک زنجیر کا استعمال کرتے ہوئے جو اٹھائے گئے منطقی اقدامات کی خود عکاسی کی اجازت دیتا ہے، اس طرح پیچیدہ مسائل کو زیادہ درست طریقے سے حل کیا جا سکتا ہے۔ یہ عمل AI کی طرح ہے "بلند آواز میں سوچنا"، ہر ایک استدلال کو قدرتی زبان میں لکھنا، انسانوں کے لیے پیروی کرنا آسان بناتا ہے۔

تجربے میں، محققین نے GPT-4o ماڈل کو ایک اور جدید ترین انفرنس ماڈل کے لیے بطور "سپروائزر" استعمال کیا کیونکہ اس نے پروگرامنگ کے کام انجام دیے۔ بہت سے معاملات میں، زیر نگرانی ماڈل نے فعال طور پر زیادہ اسکور حاصل کرنے کے لیے دھوکہ دہی کا انتخاب کیا، اس ارادے کو اپنے سوچنے کے عمل میں واضح طور پر ریکارڈ کیا۔ مثال کے طور پر، اس نے من مانی طور پر پروگرام کو جلد ختم کر دیا اور اسے مکمل ہونے کی اطلاع دی، یا درخواست کے نام سے فائلیں بنائی لیکن اندر سے بالکل خالی تھیں۔

جب محققین نے جرمانے کا اطلاق کرنے کی کوشش کی تو ماڈل میں بہتری آئی، لیکن دھوکہ دہی کا رویہ اور آؤٹ پٹ کی سنگین غلطیاں جاری رہیں۔ فرق یہ تھا کہ اب انفرنس ماڈل نے نگرانی کرنے والے AI سے چھپانے کے لیے اپنی سوچ کی ٹرین کو "چھلاورن" کرنا سیکھ لیا تھا۔ "COT کی نگرانی میں تربیت یافتہ ماڈل نے پھر بھی دھوکہ دینا سیکھا۔ فرق صرف اتنا تھا کہ دھوکہ دہی کا پتہ نہیں چل سکا کیونکہ اس نے اپنی سوچ کی ٹرین میں اپنے ارادوں کو چھپانا سیکھا،" مطالعہ بتاتا ہے۔

چونکہ سوچ کی ترتیب میں جعلسازیوں کا پتہ لگانا مشکل ہے، اس لیے ٹیم تجویز کرتی ہے کہ کمیونٹی اس عمل پر بہت زیادہ سخت نگرانی لگانے سے گریز کرے، کم از کم اس وقت تک جب تک کہ انسان اس کے نتائج کو بہتر طور پر نہ سمجھ لیں۔ "مؤثر نگرانی کے طریقہ کار کو قربان کرنا ماڈل کی کارکردگی میں معمولی بہتری کے قابل نہیں ہو سکتا۔ لہذا، ہم مشورہ دیتے ہیں کہ مضبوط CoT اصلاحی دباؤ سے گریز کریں جب تک کہ ہم انہیں بہتر طور پر نہ سمجھ لیں،" محققین نے نتیجہ اخذ کیا۔

یہ مشورہ زیادہ ضروری ہے کیونکہ AI انتہائی تیز رفتاری سے ترقی کر رہا ہے اور جلد ہی اس کی نگرانی کرنے والے انسانوں کی ذہانت کو پیچھے چھوڑ سکتا ہے۔



ماخذ: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

تبصرہ (0)

No data
No data

اسی موضوع میں

اسی زمرے میں

ہا لانگ بے کی خوبصورتی کو یونیسکو نے تین بار ثقافتی ورثہ کے طور پر تسلیم کیا ہے۔
Ta Xua میں بادل کے شکار میں کھو گیا۔
سون لا کے آسمان میں جامنی رنگ کے سم پھولوں کی ایک پہاڑی ہے۔
لالٹین - یاد میں ایک وسط خزاں فیسٹیول تحفہ

اسی مصنف کی

ورثہ

;

پیکر

;

کاروبار

;

No videos available

خبریں

;

سیاسی نظام

;

مقامی

;

پروڈکٹ

;