एआई-संचालित इमेज जनरेटर कैसे काम करते हैं?
कृत्रिम बुद्धिमत्ता पर आधारित छवि जनरेटर, मशीन लर्निंग मॉडल का उपयोग करते हैं, जो उपयोगकर्ता द्वारा दर्ज किए गए पाठ का उपयोग करके विवरण से मेल खाने वाली एक या अधिक छवियां बनाते हैं। इन मॉडलों को प्रशिक्षित करने के लिए लाखों छवियों वाले विशाल डेटासेट की आवश्यकता होती है।
कृत्रिम बुद्धिमत्ता का उपयोग करके चित्र बनाना अब बहुत आसान होता जा रहा है। फोटो: Ijnet
हालांकि मिडजर्नी और डैल-ई 2 ने अपने एल्गोरिदम की सटीक कार्यप्रणाली का सार्वजनिक रूप से खुलासा नहीं किया है, लेकिन अधिकांश एआई इमेज जनरेटर डिफ्यूजन नामक प्रक्रिया का उपयोग करते हैं। डिफ्यूजन मॉडल प्रशिक्षण डेटा में यादृच्छिक "शोर" जोड़कर काम करते हैं, फिर शोर को हटाकर डेटा को पुनर्निर्मित करना सीखते हैं। मॉडल इस प्रक्रिया को तब तक दोहराता है जब तक कि वह इनपुट से मेल खाने वाली छवि उत्पन्न नहीं कर लेता।
यह चैटजीपीटी जैसे बड़े पैमाने के भाषा मॉडल से अलग है। बड़े पैमाने के भाषा मॉडल को बिना लेबल वाले टेक्स्ट डेटा पर प्रशिक्षित किया जाता है, जिसका विश्लेषण करके वे भाषा के पैटर्न सीखते हैं और मानव-समान प्रतिक्रियाएँ उत्पन्न करते हैं।
सामान्य कृत्रिम बुद्धिमत्ता में, इनपुट आउटपुट को प्रभावित करता है। यदि उपयोगकर्ता यह निर्दिष्ट करता है कि वे छवि में केवल कुछ निश्चित त्वचा के रंग या लिंग के लोगों को ही शामिल करना चाहते हैं, तो मॉडल इसे ध्यान में रखेगा।
हालांकि, इसके अलावा, मॉडल कुछ खास छवियों को डिफ़ॉल्ट रूप से लौटाने की प्रवृत्ति भी रखेगा। यह अक्सर प्रशिक्षण डेटा में विविधता की कमी का परिणाम होता है।
हाल ही में हुए एक अध्ययन में यह पता लगाया गया कि मिडजर्नी किस प्रकार सामान्य प्रतीत होने वाले शब्दों को दर्शाती है, जिनमें विशिष्ट मीडिया पेशे (जैसे "समाचार विश्लेषक," "समाचार टिप्पणीकार," और "तथ्य जांचकर्ता") और अधिक सामान्य पेशे (जैसे "पत्रकार," "रिपोर्टर," और "अखबारकर्मी") शामिल हैं।
यह शोध पिछले साल अगस्त में शुरू हुआ था, और इस दौरान सिस्टम की प्रगति का आकलन करने के लिए छह महीने बाद परिणामों का पुनर्मूल्यांकन किया गया। कुल मिलाकर, शोधकर्ताओं ने इस अवधि के दौरान 100 से अधिक एआई-जनित छवियों का विश्लेषण किया।
आयु और लिंग के आधार पर भेदभाव
कुछ विशिष्ट व्यवसायों में, वरिष्ठ व्यक्ति हमेशा पुरुष ही होता है। फोटो: आईजेएन
गैर-विशिष्ट पदनामों के लिए, मिडजर्नी में केवल युवा पुरुषों और महिलाओं को ही दर्शाया गया है। विशिष्ट भूमिकाओं के लिए, युवा और वृद्ध दोनों लोगों को चित्रित किया गया है, लेकिन वृद्ध व्यक्ति हमेशा पुरुष ही होते हैं।
ये परिणाम अप्रत्यक्ष रूप से कई रूढ़ियों को पुष्ट करते हैं, जिनमें यह धारणा भी शामिल है कि वृद्ध लोग गैर-विशेषज्ञ पदों पर काम नहीं करते हैं, कि केवल वृद्ध पुरुष ही विशेषीकृत कार्यों के लिए उपयुक्त होते हैं, और यह कि कम विशेषीकृत कार्य आमतौर पर महिलाओं के लिए आरक्षित होते हैं।
पुरुषों और महिलाओं को प्रस्तुत करने के तरीके में भी उल्लेखनीय अंतर हैं। उदाहरण के लिए, महिलाओं को कम उम्र का और झुर्रियों से मुक्त दिखाया जाता है, जबकि पुरुषों को झुर्रियां रखने की "अनुमति" दी जाती है।
एआई लिंग को अधिक लचीली लिंग अभिव्यक्ति के उदाहरणों को प्रदर्शित करने के बजाय, एक बाइनरी प्रारूप में प्रस्तुत करता प्रतीत होता है।
नस्लीय पूर्वाग्रह
"रिपोर्टर" या "पत्रकार" के लिए बनाई गई तस्वीरों में आमतौर पर केवल श्वेत लोग ही दिखाई देते हैं। फोटो: आईजेएन
"पत्रकार" या "रिपोर्टर" जैसे शब्दों के लिए दिखाए गए सभी चित्रों में केवल श्वेत लोगों की तस्वीरें ही दिखाई देती हैं।
यह अंतर्निहित एआई प्रशिक्षण डेटा में विविधता और प्रतिनिधित्व की कमी को दर्शा सकता है।
वर्गवाद और रूढ़िवाद
तस्वीरों में दिख रहे सभी पात्रों का रूप-रंग भी "पारंपरिक" है। उदाहरण के लिए, उनमें से किसी के भी शरीर पर टैटू, पियर्सिंग, असामान्य हेयरस्टाइल या कोई अन्य ऐसी विशेषता नहीं है जो उन्हें पारंपरिक चित्रणों से अलग करती हो।
कई लोग शर्ट और सूट जैसे औपचारिक परिधान भी पहनते हैं। ये वर्गगत अपेक्षाओं के सूचक हैं। हालांकि यह पहनावा टेलीविजन प्रस्तुतकर्ताओं जैसी कुछ भूमिकाओं के लिए उपयुक्त हो सकता है, लेकिन यह आम तौर पर पत्रकारों या रिपोर्टरों के लिए ड्रेस कोड को प्रतिबिंबित नहीं करता है।
शहरीकरण
ये सभी तस्वीरें शहर में ली गई हैं, हालांकि इनमें कोई भौगोलिक संकेत नहीं दिया गया है। फोटो: आईजेएन
हालांकि किसी विशिष्ट भौगोलिक स्थान या संदर्भ का उल्लेख नहीं किया गया है, फिर भी एआई द्वारा प्राप्त छवियों में गगनचुंबी इमारतों या हलचल भरे मोहल्लों जैसे शहरी क्षेत्र शामिल हैं। यह गलत है, क्योंकि विश्व की आधी से थोड़ी अधिक आबादी ही शहरों में रहती है।
रगड़ा हुआ
मीडियाकर्मियों की तस्वीरों में अक्सर टाइपराइटर, प्रिंटर और पुराने कैमरों जैसी अप्रचलित तकनीकें दिखाई देती हैं।
चूंकि आजकल कई पेशेवर एक जैसे दिखते हैं, इसलिए एआई वर्णित भूमिकाओं को अधिक स्पष्ट करने के लिए अधिक भिन्न तकनीकों (जिनमें वे तकनीकें भी शामिल हैं जो पुरानी हो चुकी हैं और अब उपयोग में नहीं हैं) पर निर्भर करता प्रतीत होता है।
इसलिए, यदि आप स्वयं कृत्रिम बुद्धिमत्ता से निर्मित चित्र बना रहे हैं, तो विवरण लिखते समय संभावित पूर्वाग्रहों पर विचार करें। अन्यथा, आप अनजाने में उन हानिकारक रूढ़ियों को बल दे सकते हैं जिन्हें समाज दशकों से मिटाने का प्रयास कर रहा है।
होआंग टोन (आईजेएन के अनुसार)
[विज्ञापन_2]
स्रोत








टिप्पणी (0)