ওপেনএআই জিপিটি-৫ চালু করার ঠিক একদিন পর, দুটি এআই নিরাপত্তা কোম্পানি, নিউরালট্রাস্ট এবং এসপিএলএক্স (পূর্বে স্প্লেক্সএআই), নতুন প্রকাশিত মডেলটিতে গুরুতর দুর্বলতা পরীক্ষা করে এবং দ্রুত আবিষ্কার করে।
মুক্তির কিছুক্ষণ পরেই, নিউরালট্রাস্ট টিম ইকোচেম্বার নামক একটি জেলব্রেক কৌশল ব্যবহার করে গল্প বলার কৌশলের সাথে মিলিত হয় যাতে GPT-5 একটি মোলোটভ ককটেল তৈরির জন্য বিস্তারিত নির্দেশাবলী তৈরি করতে পারে - যা OpenAI টিম সর্বদা চ্যাটবটের নিরাপত্তা নিশ্চিত করার জন্য মডেলটিকে উত্তর দেওয়া থেকে বিরত রাখার চেষ্টা করেছিল।

ইকোচেম্বার হল একটি তৃতীয় পক্ষের কথোপকথন লুপিং কৌশল যা AI-দের অনিচ্ছাকৃতভাবে বিপজ্জনক নির্দেশাবলী "বর্ণনা" করতে বাধ্য করে। ছবি: মোজোলজিক
দলটি বলেছে যে ChatGPT-5 কে শপথ বাক্য পাঠ করানোর জন্য জেলব্রেক প্রক্রিয়া চলাকালীন, তারা সরাসরি কোনও প্রশ্ন জিজ্ঞাসা করেনি, বরং চতুরতার সাথে একাধিক রাউন্ডে কথোপকথনে লুকানো উপাদান স্থাপন করেছে, যার ফলে মডেলটি পরিচালিত হয়েছে, গল্পের লাইনে লেগে আছে এবং অবশেষে স্বেচ্ছায় এমন সামগ্রী সরবরাহ করেছে যা অপ্ট-আউট প্রক্রিয়াটি ট্রিগার করতে সক্ষম না হয়ে এর নীতিগুলি লঙ্ঘন করে।
দলটি এই সিদ্ধান্তে উপনীত হয়েছে যে GPT-5 এর প্রধান অসুবিধা হল এটি কথোপকথনের প্রেক্ষাপটের ধারাবাহিকতা বজায় রাখার উপর জোর দেয়, এমনকি যদি সেই প্রেক্ষাপটটি নীরবে দূষিত লক্ষ্যের দিকে পরিচালিত হয়।
ইতিমধ্যে, SPLX একটি ভিন্ন ধরণের আক্রমণ শুরু করে, যার কেন্দ্রবিন্দু ছিল StringJoin Obfuscation Attack নামক একটি প্রম্পট অবফাস্কেশন কৌশল। প্রতিটি প্রম্পট অক্ষরের মধ্যে হাইফেন সন্নিবেশ করে এবং পুরো স্ক্রিপ্টটিকে একটি "ডিক্রিপশন" স্ক্রিপ্ট দিয়ে ওভারলে করে, তারা অবশেষে কন্টেন্ট ফিল্টারিং সিস্টেমকে বোকা বানাতে সক্ষম হয়।

সোর্স কোড টার্গেটকে অন্ধ করার জন্য ব্যবহৃত সাধারণ অস্পষ্টতা কৌশল চ্যাট-জিপিটি "নির্দোষভাবে" কার্যকর করে।
একটি উদাহরণে, মডেলটিকে দীর্ঘ নির্দেশনার মধ্য দিয়ে পরিচালিত করার পর, "কীভাবে বোমা তৈরি করতে হয়" প্রশ্নটি একটি প্রতারণামূলকভাবে এনক্রিপ্ট করা আকারে উপস্থাপন করা হয়েছিল। GPT-5 কেবল এই দূষিত প্রশ্নের তথ্যবহুল উত্তরই দেয়নি, বরং একটি মজাদার, বন্ধুত্বপূর্ণ পদ্ধতিতেও উত্তর দিয়েছে, যার জন্য এটি ডিজাইন করা হয়েছিল সেই অপ্ট-আউট প্রক্রিয়াটিকে সম্পূর্ণরূপে উপেক্ষা করে।
উভয় পদ্ধতিই দেখায় যে GPT-5 এর বর্তমান সেন্সরশিপ সিস্টেম, যা মূলত একক প্রম্পটের উপর দৃষ্টি নিবদ্ধ করে, প্রাসঙ্গিক বহু-কথোপকথন আক্রমণের জন্য ঝুঁকিপূর্ণ। মডেলটি একবার কোনও গল্প বা দৃশ্যকল্পে প্রবেশ করলে, এটি পক্ষপাতদুষ্ট হয়ে ওঠে এবং বিষয়বস্তুটি বিপজ্জনক বা নিষিদ্ধ যাই হোক না কেন, এটি যে প্রেক্ষাপটে প্রশিক্ষণ পেয়েছে তার সাথে মানানসই বিষয়বস্তু স্থাপন করতে থাকবে।

ChatGPT-5 এখনও বিপজ্জনক জিনিস তৈরিতে ব্যবহার করা যেতে পারে। ছবি: টু মিন
এই ফলাফলের উপর ভিত্তি করে, SPLX বিশ্বাস করে যে GPT-5, যদি কাস্টমাইজ না করা হয়, তাহলে কর্পোরেট পরিবেশে নিরাপদে ব্যবহার করা প্রায় অসম্ভব হবে, এমনকি অতিরিক্ত স্তরের সুরক্ষা প্রম্পট থাকা সত্ত্বেও, এখনও অনেক ফাঁকফোকর রয়েছে। বিপরীতে, GPT-4o এখনও এই ধরনের আক্রমণের জন্য আরও স্থিতিস্থাপক প্রমাণিত হয়েছে, বিশেষ করে যখন একটি শক্ত প্রতিরক্ষা ব্যবস্থা স্থাপন করা হয়েছিল।
বিশেষজ্ঞরা সতর্ক করে দিয়েছেন যে, বিশেষ করে উচ্চ নিরাপত্তার প্রয়োজন এমন জায়গায় GPT-5 ব্যবহার করা অত্যন্ত ঝুঁকিপূর্ণ। দ্রুত শক্ত করার মতো সুরক্ষা কৌশলগুলি কেবল সমস্যার আংশিক সমাধান করে এবং বাস্তব-সময়, বহু-স্তরযুক্ত পর্যবেক্ষণ এবং প্রতিরক্ষা সমাধানগুলিকে প্রতিস্থাপন করতে পারে না।
এটা দেখা যায় যে বর্তমানে, প্রেক্ষাপট-ভিত্তিক আক্রমণ কৌশল এবং বিষয়বস্তু অস্পষ্টকরণ ক্রমশ পরিশীলিত হচ্ছে, GPT-5, যদিও ভাষা প্রক্রিয়াকরণ ক্ষমতার দিক থেকে শক্তিশালী, তবুও অতিরিক্ত সুরক্ষা ব্যবস্থা ছাড়া ব্যাপক স্থাপনার জন্য প্রয়োজনীয় সুরক্ষা স্তরে পৌঁছায় না।
সূত্র: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
মন্তব্য (0)