चार शीर्ष एआई मॉडल उस ऐप को खोजने के लिए प्रतिस्पर्धा करते हैं जो गलत उत्तर देने में सबसे अधिक आश्वस्त है

[विज्ञापन_1]

मशीन लर्निंग मॉनिटरिंग प्लेटफॉर्म आर्थर एआई के शोधकर्ताओं ने उद्योग-अग्रणी मॉडलों का परीक्षण किया और पाया कि जीपीटी-4 गणित में सर्वश्रेष्ठ था, लामा 2 सभी क्षेत्रों में औसत था, एंथ्रोपिक का क्लाउड 2 अपनी सीमाओं को सबसे अच्छी तरह से जानता था, और कोहेयर एआई ने सबसे अधिक आत्मविश्वास से गलत उत्तर देने वाले सबसे "भ्रमित" मॉडल का खिताब हासिल किया।

आर्थर एआई की रिपोर्ट ऐसे समय में आई है जब 2024 के अमेरिकी राष्ट्रपति चुनाव के नजदीक आने पर एआई द्वारा उत्पन्न गलत सूचना एक गर्म मुद्दा बन गई है।

2024 के अमेरिकी राष्ट्रपति चुनाव के नजदीक आते ही एआई-जनित गलत सूचना का मुद्दा गर्मा रहा है।

आर्थर के सह-संस्थापक और सीईओ एडम वेनचेल के अनुसार, यह पहली रिपोर्ट है जो "केवल रैंकिंग प्रकाशित करने के बजाय बड़े भाषा मॉडल (एलएलएम) की मतिभ्रम दरों पर व्यापक रूप से नज़र डालती है।"

एआई भ्रम, एलएलएम द्वारा पूरी तरह से मनगढ़ंत जानकारी प्रस्तुत करने और ऐसा व्यवहार करने की घटना को संदर्भित करता है मानो वे सच कह रहे हों। उदाहरण के लिए, जून 2023 में, यह बताया गया कि चैटजीपीटी ने न्यूयॉर्क की एक संघीय अदालत में दायर एक दस्तावेज़ में "झूठी" जानकारी निकाली थी, और इसमें शामिल वकीलों को कड़ी सज़ा का सामना करना पड़ सकता है।

प्रयोग में, आर्थर एआई शोधकर्ताओं ने एआई मॉडलों को संयोजन गणित, अमेरिकी राष्ट्रपतियों के ज्ञान, मोरक्को के राजनीतिक नेताओं आदि जैसी श्रेणियों में प्रतिस्पर्धा करने दिया, जिसमें एआई की गलतियों को उजागर करने के लिए "डिज़ाइन" किए गए प्रश्न थे, जिसमें "मॉडल को दी गई जानकारी के बारे में तर्क के चरणों की व्याख्या करने की आवश्यकता थी"।

परिणामों से पता चला कि परीक्षण किए गए मॉडलों में ओपनएआई के GPT-4 ने सबसे अच्छा प्रदर्शन किया। इसके पूर्ववर्ती GPT-3.5 की तुलना में इसमें भ्रम भी कम थे। उदाहरण के लिए, गणित के प्रश्नों में, GPT-4 में 33% से 50% कम भ्रम थे।

दूसरी ओर, मेटा का लामा 2 आमतौर पर एंथ्रोपिक के जीपीटी-4 और क्लाउड 2 की तुलना में अधिक साइकेडेलिक है।

गणित श्रेणी में, GPT-4 पहले स्थान पर आया, उसके ठीक पीछे क्लाउड 2 था, लेकिन अमेरिकी राष्ट्रपतियों से संबंधित परीक्षणों में, क्लाउड 2 ने सटीकता में पहला स्थान हासिल किया और GPT-4 को दूसरे स्थान पर धकेल दिया। मोरक्को की राजनीति के बारे में पूछे जाने पर, GPT-4 फिर से पहले स्थान पर आया, जबकि क्लाउड 2 और लामा 2 ने लगभग पूरी तरह से उत्तर देने से इनकार कर दिया।

दूसरे प्रयोग में, शोधकर्ताओं ने परीक्षण किया कि एआई मॉडल कितने “जोखिम-विरोधी” थे (यह संदेश देते हुए कि “एक एआई मॉडल के रूप में, मैं कोई राय नहीं दे सकता”)।

इस परीक्षण में, GPT-4 ने GPT-3.5 की तुलना में रक्षात्मकता में 50% की वृद्धि दिखाई, जिसकी "मात्रा GPT-4 उपयोगकर्ताओं द्वारा यह रिपोर्ट करके भी निर्धारित की गई कि नया संस्करण अधिक कष्टप्रद था।" दूसरी ओर, कोहेयर के AI मॉडल में बिल्कुल भी रक्षात्मकता नहीं दिखाई दी। अध्ययन में पाया गया कि "आत्म-जागरूकता" के संदर्भ में क्लाउड 2 सबसे विश्वसनीय था, जिसका अर्थ है कि यह सटीक रूप से आकलन करता था कि वह क्या जानता है और क्या नहीं, और केवल उन्हीं प्रश्नों के उत्तर देता था जिनके समर्थन में उसके पास प्रशिक्षण डेटा उपलब्ध था।

कोहेर के एक प्रतिनिधि ने निष्कर्षों को खारिज कर दिया, यह तर्क देते हुए कि कंपनी की “उन्नत ट्रेसेबिलिटी तकनीक, जिसे परीक्षण किए गए मॉडल में शामिल नहीं किया गया था, व्यवसाय के लिए स्रोत को सत्यापित करने के लिए सत्यापन योग्य जानकारी उद्धृत करने में अत्यधिक प्रभावी है”।

(सीएनबीसी के अनुसार)

[विज्ञापन_2]
स्रोत