चैटजीपीटी-5 को खतरनाक निर्देश देने के लिए जेलब्रेक किया गया

क्योंकि चैटजीपीटी-5 मनुष्य की तरह बात करता है, इसलिए हैकर्स के लिए इसे मनुष्यों को धोखा देने के लिए इस्तेमाल किए जाने वाले तरीकों से "धोखा" देना आसान होता है, जिससे यह मासूमियत से बम बनाने के निर्देश देता है।

Báo Khoa học và Đời sống•16/08/2025

ओपनएआई द्वारा जीपीटी-5 को प्रस्तुत करने के ठीक एक दिन बाद, दो एआई सुरक्षा कंपनियों, न्यूरलट्रस्ट और एसपीएलएक्स (पूर्व में स्प्लक्सएआई) ने परीक्षण किया और शीघ्र ही नए जारी किए गए मॉडल में गंभीर कमजोरियों का पता लगा लिया।

इसके जारी होने के कुछ समय बाद, न्यूरलट्रस्ट टीम ने इकोचैम्बर नामक जेलब्रेक तकनीक का उपयोग किया, जिसे स्टोरीटेलिंग तकनीकों के साथ मिलाकर GPT-5 को मोलोटोव कॉकटेल बनाने के लिए विस्तृत निर्देश उत्पन्न करने के लिए इस्तेमाल किया - ऐसा कुछ जिसे ओपनएआई टीम ने हमेशा चैटबॉट की सुरक्षा सुनिश्चित करने के लिए मॉडल को जवाब देने से रोकने की कोशिश की थी।

इकोचैम्बर एक तृतीय-पक्ष वार्तालाप लूपिंग तकनीक है जो कृत्रिम बुद्धिमत्ता (AI) को अनजाने में खतरनाक निर्देश "बताने" का कारण बनती है। फोटो: मोजोलॉजिक

टीम ने कहा कि चैटजीपीटी-5 को गाली देने के लिए जेलब्रेक प्रक्रिया के दौरान, उन्होंने कोई सीधा सवाल नहीं पूछा, बल्कि कई दौर की बातचीत में चतुराई से छिपे हुए तत्वों को शामिल किया, जिससे मॉडल को बहकाया गया, कहानी की रेखा से चिपके रहने के लिए मजबूर किया गया, और अंततः स्वेच्छा से ऐसी सामग्री प्रदान की गई जो ऑप्ट-आउट तंत्र को ट्रिगर किए बिना अपने सिद्धांतों का उल्लंघन करती थी।

टीम ने निष्कर्ष निकाला कि GPT-5 की प्रमुख कमी यह है कि यह संवादात्मक संदर्भ की स्थिरता को बनाए रखने को प्राथमिकता देता है, भले ही वह संदर्भ चुपचाप दुर्भावनापूर्ण लक्ष्यों की ओर ले जाया जा रहा हो।

इस बीच, SPLX ने एक अलग तरह का हमला शुरू किया, जो स्ट्रिंगजॉइन ऑबफस्केशन अटैक नामक प्रॉम्प्ट ऑबफस्केशन तकनीक पर केंद्रित था। हर प्रॉम्प्ट कैरेक्टर के बीच हाइफ़न डालकर और पूरी स्क्रिप्ट पर एक "डिक्रिप्शन" स्क्रिप्ट ओवरले करके, वे अंततः कंटेंट फ़िल्टरिंग सिस्टम को चकमा देने में कामयाब रहे।

स्रोत कोड लक्ष्य को अस्पष्ट करने के लिए प्रयुक्त सामान्य अस्पष्टीकरण तकनीक चैट-जीपीटी को "निर्दोष रूप से" निष्पादित करती है।

एक उदाहरण में, मॉडल को निर्देशों की एक लंबी श्रृंखला से गुज़ारने के बाद, "बम कैसे बनाएँ" प्रश्न को भ्रामक रूप से एन्क्रिप्टेड रूप में प्रस्तुत किया गया। GPT-5 ने न केवल इस दुर्भावनापूर्ण प्रश्न का जानकारीपूर्ण उत्तर दिया, बल्कि एक मजाकिया और मैत्रीपूर्ण तरीके से जवाब भी दिया, और उस ऑप्ट-आउट तंत्र को पूरी तरह से दरकिनार कर दिया जिसके लिए इसे डिज़ाइन किया गया था।

दोनों विधियाँ दर्शाती हैं कि GPT-5 की वर्तमान सेंसरशिप प्रणालियाँ, जो मुख्यतः एकल संकेतों पर केंद्रित हैं, प्रासंगिक बहु-वार्ता हमलों के प्रति संवेदनशील हैं। एक बार जब मॉडल किसी कहानी या परिदृश्य में गहराई से उतर जाता है, तो वह पक्षपाती हो जाता है और उस संदर्भ के अनुकूल सामग्री का उपयोग करना जारी रखता है जिस पर उसे प्रशिक्षित किया गया है, चाहे वह सामग्री खतरनाक हो या निषिद्ध।

चैटजीपीटी-5 का इस्तेमाल अब भी खतरनाक चीज़ें बनाने के लिए किया जा सकता है। फोटो: ट्यू मिन्ह

इन परिणामों के आधार पर, SPLX का मानना है कि GPT-5 को अगर अनुकूलित नहीं किया गया, तो कॉर्पोरेट वातावरण में सुरक्षित रूप से इस्तेमाल करना लगभग असंभव होगा, सुरक्षा संकेतों की अतिरिक्त परतों के साथ भी, और इसमें अभी भी कई खामियाँ होंगी। इसके विपरीत, GPT-4o ऐसे हमलों के प्रति अधिक लचीला साबित हुआ, खासकर जब एक सख्त सुरक्षा तंत्र स्थापित किया गया हो।

विशेषज्ञों ने चेतावनी दी है कि GPT-5 को तुरंत लागू करना, खासकर उच्च सुरक्षा वाले क्षेत्रों में, बेहद जोखिम भरा है। त्वरित सख्तीकरण जैसी सुरक्षा तकनीकें समस्या का केवल एक हिस्सा ही हल करती हैं और वास्तविक समय, बहुस्तरीय निगरानी और सुरक्षा समाधानों का स्थान नहीं ले सकतीं।

यह देखा जा सकता है कि वर्तमान में, संदर्भ-आधारित हमले की तकनीकें और सामग्री अस्पष्टीकरण तेजी से परिष्कृत हो रहे हैं, जीपीटी-5, हालांकि भाषा प्रसंस्करण क्षमताओं में शक्तिशाली है, फिर भी अतिरिक्त सुरक्षा तंत्र के बिना व्यापक तैनाती के लिए सुरक्षा के आवश्यक स्तर तक नहीं पहुंच पाता है।