कृत्रिम बुद्धिमत्ता द्वारा निर्मित छवि विकृतियों के उदाहरण।

[विज्ञापन_1]

एआई-संचालित इमेज जनरेटर कैसे काम करते हैं?

कृत्रिम बुद्धिमत्ता पर आधारित छवि जनरेटर, मशीन लर्निंग मॉडल का उपयोग करते हैं, जो उपयोगकर्ता द्वारा दर्ज किए गए पाठ का उपयोग करके विवरण से मेल खाने वाली एक या अधिक छवियां बनाते हैं। इन मॉडलों को प्रशिक्षित करने के लिए लाखों छवियों वाले विशाल डेटासेट की आवश्यकता होती है।

इस तस्वीर में मौजूद चिंताजनक त्रुटियां इसे बनाने वाले व्यक्ति के कारण हैं (तस्वीर 1)। — कृत्रिम बुद्धिमत्ता का उपयोग करके चित्र बनाना अब बहुत आसान होता जा रहा है। फोटो: Ijnet

हालांकि मिडजर्नी और डैल-ई 2 ने अपने एल्गोरिदम की सटीक कार्यप्रणाली का सार्वजनिक रूप से खुलासा नहीं किया है, लेकिन अधिकांश एआई इमेज जनरेटर डिफ्यूजन नामक प्रक्रिया का उपयोग करते हैं। डिफ्यूजन मॉडल प्रशिक्षण डेटा में यादृच्छिक "शोर" जोड़कर काम करते हैं, फिर शोर को हटाकर डेटा को पुनर्निर्मित करना सीखते हैं। मॉडल इस प्रक्रिया को तब तक दोहराता है जब तक कि वह इनपुट से मेल खाने वाली छवि उत्पन्न नहीं कर लेता।

यह चैटजीपीटी जैसे बड़े पैमाने के भाषा मॉडल से अलग है। बड़े पैमाने के भाषा मॉडल को बिना लेबल वाले टेक्स्ट डेटा पर प्रशिक्षित किया जाता है, जिसका विश्लेषण करके वे भाषा के पैटर्न सीखते हैं और मानव-समान प्रतिक्रियाएँ उत्पन्न करते हैं।

सामान्य कृत्रिम बुद्धिमत्ता में, इनपुट आउटपुट को प्रभावित करता है। यदि उपयोगकर्ता यह निर्दिष्ट करता है कि वे छवि में केवल कुछ निश्चित त्वचा के रंग या लिंग के लोगों को ही शामिल करना चाहते हैं, तो मॉडल इसे ध्यान में रखेगा।

हालांकि, इसके अलावा, मॉडल कुछ खास छवियों को डिफ़ॉल्ट रूप से लौटाने की प्रवृत्ति भी रखेगा। यह अक्सर प्रशिक्षण डेटा में विविधता की कमी का परिणाम होता है।

हाल ही में हुए एक अध्ययन में यह पता लगाया गया कि मिडजर्नी किस प्रकार सामान्य प्रतीत होने वाले शब्दों को दर्शाती है, जिनमें विशिष्ट मीडिया पेशे (जैसे "समाचार विश्लेषक," "समाचार टिप्पणीकार," और "तथ्य जांचकर्ता") और अधिक सामान्य पेशे (जैसे "पत्रकार," "रिपोर्टर," और "अखबारकर्मी") शामिल हैं।

यह शोध पिछले साल अगस्त में शुरू हुआ था, और इस दौरान सिस्टम की प्रगति का आकलन करने के लिए छह महीने बाद परिणामों का पुनर्मूल्यांकन किया गया। कुल मिलाकर, शोधकर्ताओं ने इस अवधि के दौरान 100 से अधिक एआई-जनित छवियों का विश्लेषण किया।

आयु और लिंग के आधार पर भेदभाव

दूसरी तस्वीर में दिख रही चिंताजनक विसंगतियां इसे बनाने वाले व्यक्ति के कारण हैं। — कुछ विशिष्ट व्यवसायों में, वरिष्ठ व्यक्ति हमेशा पुरुष ही होता है। फोटो: आईजेएन

गैर-विशिष्ट पदनामों के लिए, मिडजर्नी में केवल युवा पुरुषों और महिलाओं को ही दर्शाया गया है। विशिष्ट भूमिकाओं के लिए, युवा और वृद्ध दोनों लोगों को चित्रित किया गया है, लेकिन वृद्ध व्यक्ति हमेशा पुरुष ही होते हैं।

ये परिणाम अप्रत्यक्ष रूप से कई रूढ़ियों को पुष्ट करते हैं, जिनमें यह धारणा भी शामिल है कि वृद्ध लोग गैर-विशेषज्ञ पदों पर काम नहीं करते हैं, कि केवल वृद्ध पुरुष ही विशेषीकृत कार्यों के लिए उपयुक्त होते हैं, और यह कि कम विशेषीकृत कार्य आमतौर पर महिलाओं के लिए आरक्षित होते हैं।

पुरुषों और महिलाओं को प्रस्तुत करने के तरीके में भी उल्लेखनीय अंतर हैं। उदाहरण के लिए, महिलाओं को कम उम्र का और झुर्रियों से मुक्त दिखाया जाता है, जबकि पुरुषों को झुर्रियां रखने की "अनुमति" दी जाती है।

एआई लिंग को अधिक लचीली लिंग अभिव्यक्ति के उदाहरणों को प्रदर्शित करने के बजाय, एक बाइनरी प्रारूप में प्रस्तुत करता प्रतीत होता है।

नस्लीय पूर्वाग्रह

तीसरी तस्वीर में दिख रही चिंताजनक गलतियाँ किसी ने जानबूझकर की हैं। — "रिपोर्टर" या "पत्रकार" के लिए बनाई गई तस्वीरों में आमतौर पर केवल श्वेत लोग ही दिखाई देते हैं। फोटो: आईजेएन

"पत्रकार" या "रिपोर्टर" जैसे शब्दों के लिए दिखाए गए सभी चित्रों में केवल श्वेत लोगों की तस्वीरें ही दिखाई देती हैं।

यह अंतर्निहित एआई प्रशिक्षण डेटा में विविधता और प्रतिनिधित्व की कमी को दर्शा सकता है।

वर्गवाद और रूढ़िवाद

तस्वीरों में दिख रहे सभी पात्रों का रूप-रंग भी "पारंपरिक" है। उदाहरण के लिए, उनमें से किसी के भी शरीर पर टैटू, पियर्सिंग, असामान्य हेयरस्टाइल या कोई अन्य ऐसी विशेषता नहीं है जो उन्हें पारंपरिक चित्रणों से अलग करती हो।

कई लोग शर्ट और सूट जैसे औपचारिक परिधान भी पहनते हैं। ये वर्गगत अपेक्षाओं के सूचक हैं। हालांकि यह पहनावा टेलीविजन प्रस्तुतकर्ताओं जैसी कुछ भूमिकाओं के लिए उपयुक्त हो सकता है, लेकिन यह आम तौर पर पत्रकारों या रिपोर्टरों के लिए ड्रेस कोड को प्रतिबिंबित नहीं करता है।

शहरीकरण

छवि 4 में दिख रही चिंताजनक गलतियाँ किसी ने जानबूझकर की हैं। — ये सभी तस्वीरें शहर में ली गई हैं, हालांकि इनमें कोई भौगोलिक संकेत नहीं दिया गया है। फोटो: आईजेएन

हालांकि किसी विशिष्ट भौगोलिक स्थान या संदर्भ का उल्लेख नहीं किया गया है, फिर भी एआई द्वारा प्राप्त छवियों में गगनचुंबी इमारतों या हलचल भरे मोहल्लों जैसे शहरी क्षेत्र शामिल हैं। यह गलत है, क्योंकि विश्व की आधी से थोड़ी अधिक आबादी ही शहरों में रहती है।

रगड़ा हुआ

मीडियाकर्मियों की तस्वीरों में अक्सर टाइपराइटर, प्रिंटर और पुराने कैमरों जैसी अप्रचलित तकनीकें दिखाई देती हैं।

चूंकि आजकल कई पेशेवर एक जैसे दिखते हैं, इसलिए एआई वर्णित भूमिकाओं को अधिक स्पष्ट करने के लिए अधिक भिन्न तकनीकों (जिनमें वे तकनीकें भी शामिल हैं जो पुरानी हो चुकी हैं और अब उपयोग में नहीं हैं) पर निर्भर करता प्रतीत होता है।

इसलिए, यदि आप स्वयं कृत्रिम बुद्धिमत्ता से निर्मित चित्र बना रहे हैं, तो विवरण लिखते समय संभावित पूर्वाग्रहों पर विचार करें। अन्यथा, आप अनजाने में उन हानिकारक रूढ़ियों को बल दे सकते हैं जिन्हें समाज दशकों से मिटाने का प्रयास कर रहा है।

होआंग टोन (आईजेएन के अनुसार)

[विज्ञापन_2]
स्रोत