एआई स्पीच-टू-टेक्स्ट टूल भी 'विकृत' करते हैं

(सीएलओ) ओपनएआई के स्पीच-टू-टेक्स्ट टूल व्हिस्पर को "मानव स्तर के करीब मजबूत और सटीक" के रूप में विज्ञापित किया गया है, लेकिन इसमें एक बड़ी खामी है: यह टेक्स्ट स्निपेट या यहां तक कि पूरे वाक्यों को गढ़ने की प्रवृत्ति रखता है!

विशेषज्ञों का कहना है कि इसके द्वारा निर्मित कुछ पाठ्य सामग्री, जिन्हें उद्योग जगत में मतिभ्रमकारी माना जाता है, में नस्लीय टिप्पणी, हिंसा और यहां तक कि काल्पनिक चिकित्सा उपचार भी शामिल हो सकते हैं।

विशेषज्ञों का कहना है कि इस तरह की जालसाजी गंभीर है, क्योंकि व्हिस्पर का उपयोग दुनिया भर के कई उद्योगों में साक्षात्कारों का अनुवाद और लिप्यंतरण करने, पाठ और उपशीर्षक वीडियो बनाने के लिए किया जाता है।

अधिक चिंता की बात यह है कि चिकित्सा केंद्र मरीज-डॉक्टर परामर्श को रिकॉर्ड करने के लिए व्हिस्पर-आधारित उपकरणों का उपयोग कर रहे हैं, जबकि ओपनएआई ने चेतावनी दी है कि इस उपकरण का उपयोग "उच्च जोखिम वाले क्षेत्रों" में नहीं किया जाना चाहिए।

भाषण से पाठ रूपांतरण उपकरण जिसे कोई भी पढ़ सकता है छवि 1 — "#Groundtruth" से शुरू होने वाले वाक्य वही हैं जो वास्तव में कहा गया था, और "#text" से शुरू होने वाले वाक्य वही हैं जो व्हिस्पर ने लिखे थे। फोटो: एपी

शोधकर्ताओं और इंजीनियरों का कहना है कि व्हिस्पर इस्तेमाल के दौरान अक्सर मतिभ्रम पैदा करता है। उदाहरण के लिए, मिशिगन विश्वविद्यालय के एक शोधकर्ता ने बताया कि उन्होंने जिन 10 रिकॉर्डिंग्स की जाँच की, उनमें से आठ में मतिभ्रम पाया गया।

एक शुरुआती मशीन लर्निंग इंजीनियर ने व्हिस्पर के ज़रिए तैयार किए गए 100 घंटे से ज़्यादा लंबे ट्रांसक्रिप्ट्स का विश्लेषण किया और उनमें से लगभग आधे में हेराफेरी पाई। एक तीसरे डेवलपर ने बताया कि व्हिस्पर से तैयार किए गए लगभग हर 26,000 ट्रांसक्रिप्ट में उसे मतिभ्रम की स्थिति मिली।

यह भ्रम छोटे, अच्छी तरह से रिकॉर्ड किए गए ऑडियो नमूनों में भी बना रहता है। कंप्यूटर वैज्ञानिकों द्वारा किए गए एक हालिया अध्ययन में, उन्होंने जिन 13,000 से ज़्यादा स्पष्ट ऑडियो क्लिप्स की जाँच की, उनमें 187 विकृतियाँ पाई गईं।

शोधकर्ताओं ने कहा कि इस प्रवृत्ति के कारण लाखों रिकॉर्डिंग में हजारों त्रुटियां होंगी।

इंस्टीट्यूट फॉर एडवांस्ड स्टडी के स्कूल ऑफ सोशल साइंसेज की प्रोफेसर अलोंड्रा नेल्सन ने कहा कि ऐसी गलतियों के "वास्तव में गंभीर परिणाम" हो सकते हैं, विशेष रूप से अस्पताल में।

नेल्सन ने कहा, "कोई भी गलत निदान नहीं चाहता। इसके लिए एक उच्चतर अवरोध की आवश्यकता है।"

कॉर्नेल विश्वविद्यालय की प्रोफ़ेसर एलिसन कोनेके और वर्जीनिया विश्वविद्यालय की मोना स्लोएन ने कार्नेगी मेलॉन विश्वविद्यालय के शोध संग्रह, टॉकबैंक, से प्राप्त हज़ारों छोटे अंशों का अध्ययन किया। उन्होंने पाया कि लगभग 40% मतिभ्रम हानिकारक या परेशान करने वाले थे क्योंकि वक्ता को गलत समझा जा सकता था या उसका गलत प्रतिनिधित्व किया जा सकता था।

एक रिकॉर्डिंग में एक वक्ता ने "दो अन्य लड़कियों और एक महिला" का वर्णन किया, लेकिन व्हिस्पर ने अतिरिक्त नस्लीय टिप्पणी करते हुए कहा कि "दो अन्य लड़कियां और एक महिला, जो अश्वेत थी"।

एक अन्य प्रतिलेखन में, व्हिस्पर ने एक गैर-मौजूद दवा का आविष्कार किया, जिसे "बढ़ी हुई गतिविधि वाली एंटीबायोटिक्स" कहा जाता है।

जबकि अधिकांश डेवलपर्स यह स्वीकार करते हैं कि ट्रांसक्रिप्शन टूल गलत वर्तनी या अन्य त्रुटियां कर सकते हैं, इंजीनियरों और शोधकर्ताओं का कहना है कि उन्होंने कभी भी व्हिस्पर जैसा मतिभ्रमकारी एआई-संचालित ट्रांसक्रिप्शन टूल नहीं देखा है।

यह टूल ओपनएआई के प्रमुख चैटबॉट, चैटजीपीटी के कई संस्करणों में एकीकृत है और ओरेकल और माइक्रोसॉफ्ट के क्लाउड कंप्यूटिंग प्लेटफ़ॉर्म में एक एकीकृत सेवा है, जो दुनिया भर में हज़ारों कंपनियों को सेवाएँ प्रदान करती है। इसका उपयोग टेक्स्ट को कई भाषाओं में ट्रांसक्राइब और अनुवाद करने के लिए भी किया जाता है।

न्गोक आन्ह (एपी के अनुसार)

[विज्ञापन_2]
स्रोत: https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html