एआई गुपचुप तरीके से इंसानों का मूल्यांकन कर रहा है।

पहले की तरह AI का मूल्यांकन मनुष्यों द्वारा करने के बजाय, एंथ्रोपिक ने इस प्रक्रिया को उलट दिया है। क्लाउड उपयोगकर्ताओं के चैट इतिहास का विश्लेषण करके उनके AI उपयोग के "स्तर" का स्कोर देगा।

ZNews•31/05/2026

चाबोट क्लाउड उपयोगकर्ताओं की परस्पर क्रियाओं के आधार पर उनकी दक्षता का आकलन कर रहा है। चित्र: वेक्टरस्टॉक ।

एन्थ्रोपिक के नवीनतम शोध, जिसका शीर्षक "एआई फ्लुएंसी इंडेक्स" है, ने चैटबॉट क्लाउड द्वारा मनुष्यों के मूल्यांकन के माध्यम से प्रचलित धारणा को उलट दिया है। बातचीत की संरचना का विश्लेषण करके, एआई 11-पॉइंट स्केल पर उपयोगकर्ताओं की दक्षता को रैंक करता है।

24 मानकों वाले दक्षता ढांचे को विकसित करने के लिए, एंथ्रोपिक ने 9,830 वास्तविक उपयोगकर्ता वार्तालापों को स्कैन करने के लिए विश्लेषणात्मक उपकरणों का उपयोग किया।

इनमें से 13 मापदंड स्क्रीन के बाहर घटित होते हैं, जैसे कि क्या उपयोगकर्ता अपने वरिष्ठों से एआई के उपयोग को छिपाते हैं। शेष 11 मापदंड उपयोगकर्ता व्यवहार मेट्रिक्स हैं, जिन्हें तीन प्रमुख पहलुओं में विभाजित किया गया है: विवरण, प्राधिकरण और पहचान।

क्लॉड के साथ 9,830 वार्तालापों में एआई इंटरैक्शन में प्रत्येक व्यवहारिक संकेतक की व्यापकता। चित्र: एंथ्रोपिक।

सबसे पहले, अनुरोध को स्पष्ट रूप से बताने का तरीका महत्वपूर्ण है, जिसमें उपयोगकर्ताओं को यह दिखाना होगा कि वे वास्तव में क्या चाहते हैं। अस्पष्ट आदेश देने के बजाय, उच्च अंक प्राप्त करने वाले व्यक्ति हमेशा अंतिम लक्ष्य को स्पष्ट रूप से बताते हैं और संदर्भ को विस्तार से समझाते हैं। वे प्रस्तुति शैली के संबंध में भी विशिष्ट आवश्यकताएं बताते हैं, जैसे कि AI से टेबल बनाने के लिए कहना या शब्दों की संख्या सीमित करना। विशेष रूप से, यह समूह अक्सर AI को सही शैली का अनुकरण करने के लिए कई नमूना निबंध उदाहरण के रूप में शामिल करता है।

दूसरा पहलू कार्यों को सौंपने का तरीका है। शोध से पता चलता है कि कुशल उपयोगकर्ता एआई को एक विचार-विमर्श भागीदार के रूप में देखते हैं, न कि एक निरक्षर मशीन के रूप में। सबसे बड़ा अंतर निरंतरता में निहित है। एक बार में ही आदेश देने के बजाय, वे एआई के उत्तरों को परिष्कृत करने और संशोधित करने के लिए कई दौर की बातचीत में संलग्न होते हैं, जब तक कि वे पूरी तरह से संतुष्ट न हो जाएं। यह व्यवहार 85.7% उच्च-गुणवत्ता वाली बातचीत में देखने को मिलता है।

अंतिम पहलू है पहचान, जो चैटबॉट द्वारा दी गई जानकारी से मनुष्यों को गुमराह होने से बचाने के लिए एक फ़िल्टर के रूप में कार्य करता है। उपयोगकर्ताओं को लगातार तर्क की प्रकृति पर सवाल उठाना चाहिए, एआई से कोड की प्रत्येक पंक्ति की व्याख्या करने के लिए कहना चाहिए, या स्पष्ट संदर्भों का अनुरोध करना चाहिए। उन्हें एआई के समाधान में संदर्भ की कमी को पहचानने के लिए भी पर्याप्त रूप से समझदार होना चाहिए ताकि समय पर आकलन किया जा सके और निष्कर्षों में समायोजन किया जा सके।

अनुभवी उपयोगकर्ताओं को आमतौर पर क्लेड से लगभग 7-8 का स्कोर मिलता है। फोटो: X.

हालांकि, शोध एक चिंताजनक मनोवैज्ञानिक जाल की ओर भी इशारा करता है, जिसे "सुंदर इंटरफ़ेस विरोधाभास" के रूप में जाना जाता है। जब क्लाउड के आर्टिफैक्ट्स फीचर से देखने में आकर्षक उत्पाद बनते हैं, जैसे कि एक सहज कोड या एक उत्तम आरेख, तो हमारा दिमाग तुरंत "आलसी विचारक" बन जाता है और आलोचनात्मक सोच बंद कर देता है।

अध्ययन के आंकड़ों से पता चलता है कि जब उपयोगकर्ता एक सुव्यवस्थित इंटरफ़ेस देखते हैं, तो उनमें से खामियों की तलाश करने वालों का प्रतिशत तुरंत 5.2% कम हो जाता है। जानकारी की प्रामाणिकता को सत्यापित करने की क्षमता भी 3.7% कम हो जाती है, और इसके तर्क पर संदेह करने वालों का प्रतिशत 3.1% कम हो जाता है।

एंथ्रोपिक के विशेषज्ञों ने कहा, "अगर कोई चीज बिल्कुल सही दिखती है, तो उपयोगकर्ता स्वतः ही मान लेंगे कि वह सही है।"

यह व्यक्तिपरक दृष्टिकोण बेहद खतरनाक है। वास्तव में, कार्य जितना जटिल होगा, एआई द्वारा गलतियाँ करने या मनगढ़ंत जानकारी देने की संभावना उतनी ही अधिक होगी। यदि मनुष्य आंतरिक गुणों का आकलन केवल दिखावे के आधार पर करते हैं, तो एआई द्वारा उन्हें आसानी से धोखा दिया जा सकता है।

रिपोर्ट के अनुसार, जो लोग नियमित रूप से AI के साथ बातचीत करते हैं और उसकी खामियों को उजागर करते हैं, उन्हें औसत उपयोगकर्ताओं की तुलना में 5-6 गुना अधिक रेटिंग मिलती है। वे अन्य उपयोगकर्ताओं की तुलना में खामियों और विसंगतियों को पहचानने में भी अधिक सक्षम होते हैं। क्लाउड रेटिंग में इन "विशेषज्ञों" को आमतौर पर 7-8/11 अंक मिलते हैं।

स्रोत: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html