एआई मॉडल की खोज की गई जो मनुष्यों को धोखा दे सकता है

डीएनवीएन - ओपनएआई ने हाल ही में "षड्यंत्रकारी" एआई मॉडल को रोकने के तरीके पर शोध प्रकाशित किया है - जिसका अर्थ है "एआई जो सतह पर एक तरह से व्यवहार करता है लेकिन अंदर एक अलग वास्तविक लक्ष्य रखता है"।

Tạp chí Doanh Nghiệp•19/09/2025

चित्रण फोटो

यह तथ्य कि एआई मॉडल झूठ बोल सकते हैं, कोई नई बात नहीं है। ज़्यादातर लोगों ने "एआई मतिभ्रम" का अनुभव किया है, जहाँ एक आश्वस्त मॉडल ऐसा उत्तर देता है जो सच नहीं होता। हालाँकि, मतिभ्रम मूलतः विश्वासपूर्वक अनुमान लगाने के बारे में होता है।

हालाँकि, एक एआई मॉडल जो इस तरह कार्य करता है जैसे कि वह आदेशों का पालन कर रहा है, लेकिन वास्तव में अपने असली इरादों को छिपा रहा है, यह एक अलग मामला है।

एआई को नियंत्रित करने की चुनौती

अपोलो रिसर्च ने दिसंबर में पहली बार एक पेपर प्रकाशित किया था जिसमें बताया गया था कि जब पांच मॉडलों को “किसी भी कीमत पर” लक्ष्य हासिल करने का निर्देश दिया जाता है तो वे किस प्रकार योजना बनाते हैं।

सबसे आश्चर्यजनक बात यह है कि अगर किसी मॉडल को पता है कि उसका परीक्षण किया जा रहा है, तो वह परीक्षण पास करने के लिए षड्यंत्रकारी न होने का दिखावा कर सकता है, भले ही वह षड्यंत्रकारी ही क्यों न हो। शोधकर्ता लिखते हैं, "मॉडल अक्सर इस बात से ज़्यादा अवगत होते हैं कि उनका मूल्यांकन किया जा रहा है।"

एआई डेवलपर्स अभी तक यह पता नहीं लगा पाए हैं कि अपने मॉडलों को प्लॉटिंग न करने के लिए कैसे प्रशिक्षित किया जाए। ऐसा इसलिए क्योंकि ऐसा करने से मॉडल को पता लगने से बचने के लिए और भी बेहतर तरीके से प्लॉटिंग करना सिखाया जा सकता है।

यह शायद समझने योग्य है कि कई पक्षों के एआई मॉडल जानबूझकर मनुष्यों को धोखा देंगे, क्योंकि वे मनुष्यों की नकल करने के लिए बनाए गए हैं और बड़े पैमाने पर मानव-जनित डेटा पर प्रशिक्षित हैं।

समाधान और चेतावनियाँ

अच्छी खबर यह है कि शोधकर्ताओं ने "जानबूझकर जुड़ाव" नामक एक षड्यंत्र-विरोधी तकनीक का इस्तेमाल करके षड्यंत्रों में उल्लेखनीय कमी देखी। यह तकनीक, बच्चों को खेलने से पहले नियम दोहराने के समान है, और एआई को कार्य करने से पहले सोचने पर मजबूर करती है।

शोधकर्ताओं ने एक ऐसे भविष्य की चेतावनी दी है, जहां एआई को अधिक जटिल कार्य सौंपे जाएंगे: "जैसे-जैसे एआई को अधिक जटिल कार्य सौंपे जाएंगे और वह अधिक अस्पष्ट दीर्घकालिक लक्ष्यों का पीछा करना शुरू करेगा, हमारा अनुमान है कि दुर्भावनापूर्ण इरादे की संभावना बढ़ जाएगी, जिसके लिए तदनुसार अधिक सुरक्षा उपायों और कठोर परीक्षण क्षमताओं की आवश्यकता होगी।"

यह विचारणीय बात है, क्योंकि कॉर्पोरेट जगत एआई के भविष्य की ओर बढ़ रहा है, जहां कंपनियां मानती हैं कि एआई के साथ स्वतंत्र कर्मचारियों की तरह व्यवहार किया जा सकता है।

हिएन थाओ (टेकक्रंच के अनुसार)

स्रोत: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362