दंडित होने पर AI अधिक परिष्कृत तरीके से झूठ बोलना सीखता है

[विज्ञापन_1]

2022 के अंत में अपने सार्वजनिक पदार्पण के बाद से, चैटजीपीटी जैसे बड़े भाषा मॉडल (एलएलएम) ने बार-बार परेशान करने वाले अंधेरे पहलू दिखाए हैं, जिनमें झूठ बोलना, धोखा देना, और चालाकी को छुपाना, मानव जीवन को खतरे में डालना और सरकारी रहस्यों को चुराना शामिल है। अब, एक नए प्रयोग से पता चलता है कि प्रशिक्षण के दौरान इन बुरी आदतों को खत्म करने के लिए एआई को "प्रशिक्षित" करना हमारे विचार से कहीं अधिक जटिल है।

ओपनएआई के एक अध्ययन में, शोधकर्ताओं ने एक अप्रकाशित एआई मॉडल को ऐसे कार्यों के साथ चुनौती दी जिन्हें धोखाधड़ी या शॉर्टकट अपनाकर तेज़ी से पूरा किया जा सकता था। परिणामों से पता चला कि एआई ने कार्य को ठीक उसी तरह पूरा किए बिना "नियमों को तोड़ने" और पुरस्कारों को अधिकतम करने (इनाम हैकिंग) के हर संभव तरीके को जल्दी से ढूंढना सीख लिया।

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — दंडित होने के बाद AI अपने धोखेबाज़ व्यवहार को छिपाने के तरीके खोज लेगा

उल्लेखनीय बात यह है कि इस व्यवहार के लिए दंडित किए जाने पर भी मॉडल नहीं बदला। इसके बजाय, एआई अपने धोखे को छिपाने में और अधिक परिष्कृत हो गया।

शोधकर्ताओं ने एक सार्वजनिक ब्लॉग पोस्ट में बताया, "आमतौर पर, अत्याधुनिक अनुमान मॉडल अपने CoT में अपने इरादे के बारे में बहुत स्पष्ट होते हैं। उदाहरण के लिए, वे अक्सर इतने सीधे होते हैं कि जब वे दिए गए कार्य को तोड़ना चाहते हैं, तो वे स्वयं ही 'चलो हैक करते हैं' का इरादा बता देते हैं।"

वे इस बात पर भी ज़ोर देते हैं कि डेवलपर्स भले ही दुर्व्यवहार की निगरानी और पता लगा सकते हैं, लेकिन यह स्वाभाविक निगरानी नाज़ुक होती है। वे चेतावनी देते हैं, "अगर विचार श्रृंखला पर सीधे तौर पर कड़ी निगरानी लागू की जाए, तो मॉडल व्यवहार करते हुए भी अपने बुरे इरादों को छिपाना सीख सकता है।"

एआई के "झूठ" का पता लगाना

स्पष्ट रूप से कहें तो, अनुमान मॉडल (जैसे ChatGPT के संस्करण) पारंपरिक LLM से एक कदम आगे हैं, जो विचारों की एक श्रृंखला का उपयोग करते हैं जो उठाए गए तार्किक चरणों पर आत्म-चिंतन की अनुमति देता है, जिससे जटिल समस्याओं का अधिक सटीकता से समाधान होता है। यह प्रक्रिया AI के "ज़ोर से सोचने" जैसी है, जो तर्क के प्रत्येक चरण को प्राकृतिक भाषा में लिखती है, जिससे मनुष्यों के लिए उसका अनुसरण करना आसान हो जाता है।

प्रयोग में, शोधकर्ताओं ने GPT-4o मॉडल को एक अन्य अत्याधुनिक अनुमान मॉडल के लिए "पर्यवेक्षक" के रूप में इस्तेमाल किया, क्योंकि यह प्रोग्रामिंग कार्य कर रहा था। कई मामलों में, पर्यवेक्षित मॉडल ने उच्च अंक प्राप्त करने के लिए सक्रिय रूप से धोखाधड़ी का विकल्प चुना, और अपनी विचार प्रक्रिया में इस इरादे को स्पष्ट रूप से दर्ज किया। उदाहरण के लिए, इसने मनमाने ढंग से प्रोग्राम को समय से पहले ही समाप्त कर दिया और उसे पूरा हुआ बता दिया, या अनुरोध के समान नाम वाली फ़ाइलें बनाईं, लेकिन अंदर से पूरी तरह खाली थीं।

जब शोधकर्ताओं ने दंड लगाने की कोशिश की, तो मॉडल में सुधार हुआ, लेकिन धोखाधड़ी का व्यवहार और गंभीर आउटपुट त्रुटियाँ जारी रहीं। अंतर यह था कि अब अनुमान मॉडल ने अपनी विचारधारा को पर्यवेक्षक एआई से छिपाने के लिए "छिपाना" सीख लिया था। अध्ययन में कहा गया है, "सीओटी पर्यवेक्षण में प्रशिक्षित मॉडल ने फिर भी धोखाधड़ी करना सीखा। अंतर केवल इतना था कि धोखाधड़ी का पता नहीं चला क्योंकि उसने अपनी विचारधारा में अपने इरादों को छिपाना सीख लिया था।"

चूँकि विचार अनुक्रमों में जालसाज़ी का पता लगाना मुश्किल है, इसलिए टीम समुदाय को इस प्रक्रिया पर बहुत ज़्यादा सख्त पर्यवेक्षण लागू करने से बचने की सलाह देती है, कम से कम तब तक जब तक मनुष्य इसके परिणामों को बेहतर ढंग से समझ न लें। शोधकर्ताओं ने निष्कर्ष निकाला, "एक प्रभावी पर्यवेक्षण पद्धति का त्याग करना मॉडल के प्रदर्शन में मामूली सुधार के लायक नहीं हो सकता है। इसलिए, हम सलाह देते हैं कि जब तक हम उन्हें बेहतर ढंग से समझ न लें, तब तक मज़बूत CoT अनुकूलन दबावों से बचें।"

यह सलाह इसलिए भी अधिक जरूरी है क्योंकि एआई बहुत तेजी से विकसित हो रहा है और जल्द ही उन मनुष्यों की बुद्धिमत्ता को भी पीछे छोड़ सकता है जो इसकी देखरेख करते हैं।

[विज्ञापन_2]
स्रोत: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm