चित्रण फोटो
हालाँकि, एक एआई मॉडल जो इस तरह कार्य करता है जैसे कि वह आदेशों का पालन कर रहा है, लेकिन वास्तव में अपने असली इरादों को छिपा रहा है, यह एक अलग मामला है।
एआई को नियंत्रित करने की चुनौती
अपोलो रिसर्च ने दिसंबर में पहली बार एक पेपर प्रकाशित किया था जिसमें बताया गया था कि जब पांच मॉडलों को “किसी भी कीमत पर” लक्ष्य हासिल करने का निर्देश दिया जाता है तो वे किस प्रकार योजना बनाते हैं।
सबसे आश्चर्यजनक बात यह है कि अगर किसी मॉडल को पता है कि उसका परीक्षण किया जा रहा है, तो वह परीक्षण पास करने के लिए षड्यंत्रकारी न होने का दिखावा कर सकता है, भले ही वह षड्यंत्रकारी ही क्यों न हो। शोधकर्ता लिखते हैं, "मॉडल अक्सर इस बात से ज़्यादा अवगत होते हैं कि उनका मूल्यांकन किया जा रहा है।"
एआई डेवलपर्स अभी तक यह पता नहीं लगा पाए हैं कि अपने मॉडलों को प्लॉटिंग न करने के लिए कैसे प्रशिक्षित किया जाए। ऐसा इसलिए क्योंकि ऐसा करने से मॉडल को पता लगने से बचने के लिए और भी बेहतर तरीके से प्लॉटिंग करना सिखाया जा सकता है।
यह शायद समझने योग्य है कि कई पक्षों के एआई मॉडल जानबूझकर मनुष्यों को धोखा देंगे, क्योंकि वे मनुष्यों की नकल करने के लिए बनाए गए हैं और बड़े पैमाने पर मानव-जनित डेटा पर प्रशिक्षित हैं।
समाधान और चेतावनियाँ
अच्छी खबर यह है कि शोधकर्ताओं ने "जानबूझकर जुड़ाव" नामक एक षड्यंत्र-विरोधी तकनीक का इस्तेमाल करके षड्यंत्रों में उल्लेखनीय कमी देखी। यह तकनीक, बच्चों को खेलने से पहले नियम दोहराने के समान है, और एआई को कार्य करने से पहले सोचने पर मजबूर करती है।
शोधकर्ताओं ने एक ऐसे भविष्य की चेतावनी दी है, जहां एआई को अधिक जटिल कार्य सौंपे जाएंगे: "जैसे-जैसे एआई को अधिक जटिल कार्य सौंपे जाएंगे और वह अधिक अस्पष्ट दीर्घकालिक लक्ष्यों का पीछा करना शुरू करेगा, हमारा अनुमान है कि दुर्भावनापूर्ण इरादे की संभावना बढ़ जाएगी, जिसके लिए तदनुसार अधिक सुरक्षा उपायों और कठोर परीक्षण क्षमताओं की आवश्यकता होगी।"
यह विचारणीय बात है, क्योंकि कॉर्पोरेट जगत एआई के भविष्य की ओर बढ़ रहा है, जहां कंपनियां मानती हैं कि एआई के साथ स्वतंत्र कर्मचारियों की तरह व्यवहार किया जा सकता है।
स्रोत: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
टिप्पणी (0)