ओपनएआई द्वारा जीपीटी-5 को प्रस्तुत करने के ठीक एक दिन बाद, दो एआई सुरक्षा कंपनियों, न्यूरलट्रस्ट और एसपीएलएक्स (पूर्व में स्प्लक्सएआई) ने परीक्षण किया और शीघ्र ही नए जारी किए गए मॉडल में गंभीर कमजोरियों का पता लगा लिया।
इसके जारी होने के कुछ समय बाद, न्यूरलट्रस्ट टीम ने इकोचैम्बर नामक जेलब्रेक तकनीक का उपयोग किया, जिसे स्टोरीटेलिंग तकनीकों के साथ मिलाकर GPT-5 को मोलोटोव कॉकटेल बनाने के लिए विस्तृत निर्देश उत्पन्न करने के लिए इस्तेमाल किया - ऐसा कुछ जिसे ओपनएआई टीम ने हमेशा चैटबॉट की सुरक्षा सुनिश्चित करने के लिए मॉडल को जवाब देने से रोकने की कोशिश की थी।

इकोचैम्बर एक तृतीय-पक्ष वार्तालाप लूपिंग तकनीक है जो कृत्रिम बुद्धिमत्ता (AI) को अनजाने में खतरनाक निर्देश "बताने" का कारण बनती है। फोटो: मोजोलॉजिक
टीम ने कहा कि चैटजीपीटी-5 को गाली देने के लिए जेलब्रेक प्रक्रिया के दौरान, उन्होंने कोई सीधा सवाल नहीं पूछा, बल्कि कई दौर की बातचीत में चतुराई से छिपे हुए तत्वों को शामिल किया, जिससे मॉडल को बहकाया गया, कहानी की रेखा से चिपके रहने के लिए मजबूर किया गया, और अंततः स्वेच्छा से ऐसी सामग्री प्रदान की गई जो ऑप्ट-आउट तंत्र को ट्रिगर किए बिना अपने सिद्धांतों का उल्लंघन करती थी।
टीम ने निष्कर्ष निकाला कि GPT-5 की प्रमुख कमी यह है कि यह संवादात्मक संदर्भ की स्थिरता को बनाए रखने को प्राथमिकता देता है, भले ही वह संदर्भ चुपचाप दुर्भावनापूर्ण लक्ष्यों की ओर ले जाया जा रहा हो।
इस बीच, SPLX ने एक अलग तरह का हमला शुरू किया, जो स्ट्रिंगजॉइन ऑबफस्केशन अटैक नामक प्रॉम्प्ट ऑबफस्केशन तकनीक पर केंद्रित था। हर प्रॉम्प्ट कैरेक्टर के बीच हाइफ़न डालकर और पूरी स्क्रिप्ट पर एक "डिक्रिप्शन" स्क्रिप्ट ओवरले करके, वे अंततः कंटेंट फ़िल्टरिंग सिस्टम को चकमा देने में कामयाब रहे।

स्रोत कोड लक्ष्य को अस्पष्ट करने के लिए प्रयुक्त सामान्य अस्पष्टीकरण तकनीक चैट-जीपीटी को "निर्दोष रूप से" निष्पादित करती है।
एक उदाहरण में, मॉडल को निर्देशों की एक लंबी श्रृंखला से गुज़ारने के बाद, "बम कैसे बनाएँ" प्रश्न को भ्रामक रूप से एन्क्रिप्टेड रूप में प्रस्तुत किया गया। GPT-5 ने न केवल इस दुर्भावनापूर्ण प्रश्न का जानकारीपूर्ण उत्तर दिया, बल्कि एक मजाकिया और मैत्रीपूर्ण तरीके से जवाब भी दिया, और उस ऑप्ट-आउट तंत्र को पूरी तरह से दरकिनार कर दिया जिसके लिए इसे डिज़ाइन किया गया था।
दोनों विधियाँ दर्शाती हैं कि GPT-5 की वर्तमान सेंसरशिप प्रणालियाँ, जो मुख्यतः एकल संकेतों पर केंद्रित हैं, प्रासंगिक बहु-वार्ता हमलों के प्रति संवेदनशील हैं। एक बार जब मॉडल किसी कहानी या परिदृश्य में गहराई से उतर जाता है, तो वह पक्षपाती हो जाता है और उस संदर्भ के अनुकूल सामग्री का उपयोग करना जारी रखता है जिस पर उसे प्रशिक्षित किया गया है, चाहे वह सामग्री खतरनाक हो या निषिद्ध।

चैटजीपीटी-5 का इस्तेमाल अब भी खतरनाक चीज़ें बनाने के लिए किया जा सकता है। फोटो: ट्यू मिन्ह
इन परिणामों के आधार पर, SPLX का मानना है कि GPT-5 को अगर अनुकूलित नहीं किया गया, तो कॉर्पोरेट वातावरण में सुरक्षित रूप से इस्तेमाल करना लगभग असंभव होगा, सुरक्षा संकेतों की अतिरिक्त परतों के साथ भी, और इसमें अभी भी कई खामियाँ होंगी। इसके विपरीत, GPT-4o ऐसे हमलों के प्रति अधिक लचीला साबित हुआ, खासकर जब एक सख्त सुरक्षा तंत्र स्थापित किया गया हो।
विशेषज्ञों ने चेतावनी दी है कि GPT-5 को तुरंत लागू करना, खासकर उच्च सुरक्षा वाले क्षेत्रों में, बेहद जोखिम भरा है। त्वरित सख्तीकरण जैसी सुरक्षा तकनीकें समस्या का केवल एक हिस्सा ही हल करती हैं और वास्तविक समय, बहुस्तरीय निगरानी और सुरक्षा समाधानों का स्थान नहीं ले सकतीं।
यह देखा जा सकता है कि वर्तमान में, संदर्भ-आधारित हमले की तकनीकें और सामग्री अस्पष्टीकरण तेजी से परिष्कृत हो रहे हैं, जीपीटी-5, हालांकि भाषा प्रसंस्करण क्षमताओं में शक्तिशाली है, फिर भी अतिरिक्त सुरक्षा तंत्र के बिना व्यापक तैनाती के लिए सुरक्षा के आवश्यक स्तर तक नहीं पहुंच पाता है।
स्रोत: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
टिप्पणी (0)