ओपनएआई ने चैटजीपीटी-4 के प्रशिक्षण के तरीके के बारे में ज़्यादा जानकारी नहीं दी है। हालाँकि, बड़े भाषा मॉडल (एलएलएम) आमतौर पर इंटरनेट से प्राप्त टेक्स्ट पर प्रशिक्षित होते हैं, जहाँ अंग्रेज़ी भाषा ही मुख्य भाषा है। चैटजीपीटी-3 का लगभग 93% प्रशिक्षण डेटा अंग्रेज़ी में है।

कॉमन क्रॉल में, जो कि उन डेटासेट्स में से एक है जिन पर एआई मॉडल को प्रशिक्षित किया गया था, अंग्रेजी कुल संग्रह का 47% हिस्सा बनाती है, जबकि अन्य यूरोपीय भाषाएँ 38% हिस्सा बनाती हैं। इसके विपरीत, चीनी और जापानी भाषाएँ मिलकर केवल 9% हिस्सा बनाती हैं।

स्क्रीनशॉट 2024 01 31 at 151709.png
एलएलएम प्रशिक्षण के लिए प्रयुक्त अधिकांश डेटा अंग्रेजी या अन्य यूरोपीय भाषाओं में है।

यह समस्या केवल चैटजीपीटी तक ही सीमित नहीं है, जैसा कि जॉन्स हॉपकिन्स विश्वविद्यालय के शोधकर्ता नथानिएल रॉबिन्सन और उनके सहयोगियों ने पाया। सभी एलएलएम ने "उच्च-संसाधन" भाषाओं में बेहतर प्रदर्शन किया, जहाँ प्रशिक्षण डेटा प्रचुर मात्रा में था, बजाय "निम्न-संसाधन" भाषाओं के, जहाँ यह दुर्लभ था।

यह उन लोगों के लिए एक समस्या है जो शिक्षा से लेकर स्वास्थ्य तक के क्षेत्रों में सुधार के लिए गरीब देशों में एआई लाने की उम्मीद कर रहे हैं। नतीजतन, दुनिया भर के शोधकर्ता एआई को और अधिक बहुभाषी बनाने के लिए काम कर रहे हैं।

पिछले सितंबर में, भारत सरकार ने किसानों को सरकार की उपयोगी जानकारी से अपडेट रखने में मदद करने के लिए एक चैटबॉट लॉन्च किया था।

चैटबॉट बनाने में मदद करने वाली गैर-लाभकारी संस्था, एकस्टेप फ़ाउंडेशन के शंकर मारुवाड़ा ने बताया कि यह बॉट दो तरह के भाषा मॉडल को मिलाकर काम करता है, जिससे उपयोगकर्ता अपनी मूल भाषा में प्रश्न पूछ सकते हैं। ये मूल भाषा के प्रश्न एक भारतीय शोध केंद्र में मशीन अनुवाद सॉफ़्टवेयर को भेजे जाते हैं, जो उन्हें अंग्रेजी में अनुवाद करता है और फिर उन्हें LLM को भेजता है, जो उस उत्तर को संसाधित करता है। अंत में, उत्तर का उपयोगकर्ता की मूल भाषा में अनुवाद किया जाता है।

यह प्रक्रिया कारगर हो सकती है, लेकिन प्रश्नों का एलएलएम की "पसंदीदा" भाषा में अनुवाद करना एक बेढंगा समाधान है। भाषा संस्कृति और विश्वदृष्टि का प्रतिबिंब होती है। सिडनी विश्वविद्यालय की शोधकर्ता रेबेका जॉनसन द्वारा 2022 में प्रकाशित एक शोधपत्र में पाया गया कि चैटजीपीटी-3 ने बंदूक नियंत्रण और शरणार्थी नीति जैसे विषयों पर ऐसे उत्तर दिए जो विश्व मूल्य सर्वेक्षण में व्यक्त अमेरिकी मूल्यों के तुलनीय थे।

परिणामस्वरूप, कई शोधकर्ता एलएलएम छात्रों को कम प्रचलित भाषाओं में भी पारंगत बनाने का प्रयास कर रहे हैं। तकनीकी रूप से, एक तरीका भाषा के लिए टोकनाइज़र को संशोधित करना है। सर्वम एआई नामक एक भारतीय स्टार्टअप ने हिंदी के लिए अनुकूलित एक टोकनाइज़र, या ओपनहाथी मॉडल - देवनागरी भाषा अनुकूलित एलएलएम (भारत) लिखा है, जो प्रश्नों के उत्तर देने की लागत को काफी कम कर सकता है।

एक और तरीका है उन डेटासेट को बेहतर बनाना जिन पर एलएलएम का प्रशिक्षण दिया जाता है। नवंबर में, अबू धाबी स्थित मोहम्मद बिन जायद विश्वविद्यालय के शोधकर्ताओं की एक टीम ने अपने अरबी-भाषी मॉडल का नवीनतम संस्करण, "जैस" जारी किया। इसमें ChatGPT-3 के मापदंडों की संख्या का छठा हिस्सा है, लेकिन यह अरबी में भी लगभग उतना ही अच्छा प्रदर्शन करता है।

मोहम्मद बिन जायद विश्वविद्यालय के अध्यक्ष टिमोथी बाल्डविन ने बताया कि हालाँकि उनकी टीम ने बहुत सारे अरबी पाठों का डिजिटलीकरण किया, फिर भी कुछ अंग्रेज़ी पाठ मॉडल में शामिल थे। कुछ अवधारणाएँ सभी भाषाओं में समान होती हैं और उन्हें किसी भी भाषा में सीखा जा सकता है।

तीसरा तरीका है प्रशिक्षित होने के बाद मॉडलों को बेहतर बनाना। जैस और ओपनहाथी, दोनों में मानव-निर्मित प्रश्न-उत्तर युग्मों की एक बड़ी संख्या है। गलत सूचना को रोकने के लिए पश्चिमी चैटबॉट्स पर भी यही बात लागू होती है।

एक बड़ी चीनी तकनीकी कंपनी, Baidu के एक LLM, एर्नी बॉट को सरकार को नाराज़ करने वाली बातों को सीमित करने के लिए ट्यून किया गया है। ये मॉडल मानवीय प्रतिक्रिया से भी सीख सकते हैं, जहाँ उपयोगकर्ता LLM के उत्तरों को रेटिंग देते हैं। लेकिन कम विकसित क्षेत्रों में कई भाषाओं के लिए ऐसा करना मुश्किल है क्योंकि मशीन के उत्तरों की समीक्षा के लिए योग्य लोगों को नियुक्त करने की आवश्यकता होती है।

(इकोनॉमिस्ट के अनुसार)

अमेरिकी सेना महत्वपूर्ण खनिजों की कीमतों का अनुमान लगाने के लिए एआई का उपयोग कर रही है अमेरिकी सेना एक ऐसा कंप्यूटर प्रोग्राम विकसित करने की योजना बना रही है जो निकल, कोबाल्ट और अन्य महत्वपूर्ण खनिजों की कीमतों का अनुमान लगाने और आपूर्ति की भविष्यवाणी करने में सक्षम हो।