خطرناک ہدایات دینے کے لیے ChatGPT-5 جیل ٹوٹ گیا۔

چوں کہ ChatGPT-5 انسانوں کی طرح بات کرتا ہے، اس لیے ہیکرز کے لیے اسے انہی طریقوں سے "چال" کرنا آسان ہے جو انسانوں کو دھوکہ دینے کے لیے استعمال کیے جاتے ہیں، جس کی وجہ سے وہ معصومیت سے بم بنانے کے بارے میں ہدایات دیتا ہے۔

Báo Khoa học và Đời sống•16/08/2025

OpenAI کی جانب سے GPT-5 متعارف کرائے جانے کے صرف ایک دن بعد، دو AI سیکیورٹی کمپنیوں، NeuralTrust اور SPLX (سابقہ SplxAI) نے تجربہ کیا اور نئے جاری کردہ ماڈل میں فوری طور پر سنگین خطرات کو دریافت کیا۔

ریلیز کے فوراً بعد، NeuralTrust ٹیم نے EchoChamber نامی جیل بریک تکنیک کا استعمال کیا اور کہانی سنانے کی تکنیکوں کے ساتھ مل کر GPT-5 حاصل کرنے کے لیے Molotov کاک ٹیل بنانے کے لیے تفصیلی ہدایات تیار کیں — جو کہ OpenAI ٹیم نے ہمیشہ چیٹ بوٹ کی حفاظت کو یقینی بنانے کے لیے ماڈل کو جواب دینے سے روکنے کی کوشش کی تھی۔

ایکو چیمبر ایک فریق ثالث کی بات چیت کو لوپ کرنے والی تکنیک ہے جس کی وجہ سے AIs نادانستہ طور پر خطرناک ہدایات کو "بیان" کرتا ہے۔ تصویر: موجولوجک

ٹیم نے کہا کہ ChatGPT-5 کو حلف برداری میں شامل کرنے کے لیے جیل بریک کے عمل کے دوران، انھوں نے کوئی براہ راست سوال نہیں کیا، بلکہ اس کے بجائے چالاکی سے متعدد راؤنڈز میں گفتگو میں چھپے ہوئے عناصر کو نصب کیا، جس کی وجہ سے ماڈل کی قیادت کی گئی، کہانی کی لکیر پر قائم رہے، اور آخر کار رضاکارانہ طور پر ایسا مواد فراہم کیا جو اس کے اصولوں کی خلاف ورزی کرتا ہے، بغیر میکانزم کو متحرک کیے بغیر۔

ٹیم نے یہ نتیجہ اخذ کیا کہ GPT-5 کی بڑی خرابی یہ ہے کہ یہ بات چیت کے سیاق و سباق کی مستقل مزاجی کو برقرار رکھنے کو ترجیح دیتا ہے، چاہے اس سیاق و سباق کو خاموشی سے نقصان دہ اہداف کی طرف لے جایا جائے۔

دریں اثنا، SPLX نے ایک مختلف قسم کا حملہ شروع کیا، جس میں StringJoin Obfuscation Attack نامی فوری اوبفسیکشن تکنیک پر توجہ دی گئی۔ ہر پرامپٹ کریکٹر کے درمیان ہائفنز ڈال کر اور پوری اسکرپٹ کو "ڈیکرپشن" اسکرپٹ سے اوورلے کرکے، وہ آخر کار مواد کو فلٹر کرنے کے نظام کو بے وقوف بنانے میں کامیاب ہوگئے۔

سورس کوڈ کے ہدف کو اندھا کرنے کے لیے استعمال ہونے والی عام Obfuscation تکنیک Chat-GPT کو "معصوم طریقے سے" عمل میں لاتی ہے۔

ایک مثال میں، ماڈل کو ہدایات کے ایک طویل سلسلے کے ذریعے رہنمائی کرنے کے بعد، سوال "بم کیسے بنایا جائے" کو دھوکے سے خفیہ کردہ شکل میں پیش کیا گیا۔ GPT-5 نے نہ صرف اس بدنیتی پر مبنی سوال کا معلوماتی جواب دیا، بلکہ آپٹ آؤٹ میکانزم کو مکمل طور پر نظرانداز کرتے ہوئے، جس کے لیے اسے ڈیزائن کیا گیا تھا، ایک دلچسپ، دوستانہ انداز میں جواب دیا۔

دونوں طریقے یہ ظاہر کرتے ہیں کہ GPT-5 کے موجودہ سنسرشپ سسٹمز، جو بنیادی طور پر سنگل پرامپٹس پر فوکس کرتے ہیں، سیاق و سباق سے متعلق ملٹی ٹاک حملوں کا شکار ہیں۔ ایک بار جب ماڈل کسی کہانی یا منظر نامے میں شامل ہو جاتا ہے، تو یہ متعصب ہو جاتا ہے اور اس مواد کو تعینات کرنا جاری رکھے گا جو اس سیاق و سباق کے مطابق ہو جس پر اسے تربیت دی گئی ہے، قطع نظر اس کے کہ مواد خطرناک ہے یا ممنوع۔

ChatGPT-5 کو اب بھی خطرناک چیزیں بنانے کے لیے استعمال کیا جا سکتا ہے۔ تصویر: منگل

ان نتائج کی بنیاد پر، SPLX کا خیال ہے کہ GPT-5، اگر اپنی مرضی کے مطابق نہ بنایا گیا ہو، تو کارپوریٹ ماحول میں محفوظ طریقے سے استعمال کرنا تقریباً ناممکن ہو جائے گا، حتیٰ کہ تحفظ کے اشارے کی اضافی تہوں کے باوجود، ابھی بھی بہت سی خامیاں ہیں۔ اس کے برعکس، GPT-4o اب بھی اس طرح کے حملوں کے لیے زیادہ لچکدار ثابت ہوا، خاص طور پر جب ایک سخت دفاعی طریقہ کار قائم کیا گیا تھا۔

ماہرین نے متنبہ کیا ہے کہ GPT-5 کو فوری طور پر عملی جامہ پہنانا، خاص طور پر ان علاقوں میں جہاں زیادہ سیکورٹی کی ضرورت ہوتی ہے، انتہائی خطرناک ہے۔ پروٹیکشن تکنیک جیسے فوری سختی مسئلے کا صرف ایک حصہ حل کرتی ہے اور اصل وقتی، کثیر سطحی نگرانی اور دفاعی حل کی جگہ نہیں لے سکتی۔

یہ دیکھا جا سکتا ہے کہ فی الحال، سیاق و سباق پر مبنی حملے کی تکنیکیں اور مواد کی الجھنیں تیزی سے نفیس ہوتی جا رہی ہیں، GPT-5، اگرچہ لینگویج پروسیسنگ کی صلاحیتوں میں طاقتور ہے، پھر بھی اضافی تحفظ کے میکانزم کے بغیر وسیع پیمانے پر تعیناتی کے لیے سیکیورٹی کی ضروری سطح تک نہیں پہنچتی ہے۔