ChatGPT-4 কীভাবে প্রশিক্ষিত হয়েছিল সে সম্পর্কে OpenAI খুব বেশি কিছু প্রকাশ করেনি। তবে, বৃহৎ ভাষা মডেলগুলি (LLM) সাধারণত ইন্টারনেট থেকে সংগৃহীত পাঠ্যের উপর প্রশিক্ষিত হয়, যেখানে ইংরেজিই মূল ভাষা। ChatGPT-3 এর প্রশিক্ষণ তথ্যের প্রায় 93% ইংরেজিতে।

কমন ক্রল, যে ডেটাসেটের উপর এআই মডেলটি প্রশিক্ষিত করা হয়েছিল, তার মধ্যে একটি, ইংরেজি ৪৭% কর্পাস তৈরি করে, অন্যান্য ইউরোপীয় ভাষা আরও ৩৮% তৈরি করে। বিপরীতে, চীনা এবং জাপানিরা মিলিতভাবে মাত্র ৯% তৈরি করে।

স্ক্রিনশট 2024 01 31 151709.png এ
এলএলএম প্রশিক্ষণের জন্য ব্যবহৃত বেশিরভাগ তথ্য ইংরেজি বা অন্যান্য ইউরোপীয় ভাষায়।

জনস হপকিন্স বিশ্ববিদ্যালয়ের গবেষক নাথানিয়েল রবিনসন এবং তার সহকর্মীরা যেমনটি আবিষ্কার করেছেন, এটি কেবল চ্যাটজিপিটির মধ্যেই সীমাবদ্ধ সমস্যা নয়। সমস্ত এলএলএম "উচ্চ-সম্পদ" ভাষাগুলিতে ভাল পারফর্ম করেছে, যেখানে প্রশিক্ষণের তথ্য প্রচুর ছিল, "কম-সম্পদ" ভাষাগুলির তুলনায়, যেখানে এটি দুষ্প্রাপ্য ছিল।

যারা দরিদ্র দেশগুলিতে শিক্ষা থেকে শুরু করে স্বাস্থ্য পর্যন্ত ক্ষেত্রগুলির উন্নতির জন্য AI নিয়ে আসার আশা করছেন তাদের জন্য এটি একটি সমস্যা। ফলস্বরূপ, বিশ্বজুড়ে গবেষকরা AI কে আরও বহুভাষিক করার জন্য কাজ করছেন।

গত সেপ্টেম্বরে, ভারত সরকার কৃষকদের সরকারের কাছ থেকে দরকারী তথ্যের সাথে আপডেট থাকতে সাহায্য করার জন্য একটি চ্যাটবট চালু করেছে।

চ্যাটবট তৈরিতে সাহায্যকারী অলাভজনক প্রতিষ্ঠান একস্টেপ ফাউন্ডেশনের শঙ্কর মারুওয়াদা বলেন, এই বট দুটি ধরণের ভাষা মডেলকে একত্রিত করে কাজ করে, যার ফলে ব্যবহারকারীরা তাদের মাতৃভাষায় প্রশ্ন জমা দিতে পারেন। এই স্থানীয় ভাষার প্রশ্নগুলি একটি ভারতীয় গবেষণা কেন্দ্রের মেশিন অনুবাদ সফ্টওয়্যারে পাঠানো হয়, যা সেগুলিকে ইংরেজিতে অনুবাদ করে LLM-এ পাঠানোর আগে, প্রতিক্রিয়া প্রক্রিয়া করে। অবশেষে, প্রতিক্রিয়াটি ব্যবহারকারীর মাতৃভাষায় আবার অনুবাদ করা হয়।

এই প্রক্রিয়াটি কাজ করতে পারে, কিন্তু LLM-এর "পছন্দের" ভাষায় প্রশ্ন অনুবাদ করা একটি আনাড়ি সমাধান। ভাষা সংস্কৃতি এবং বিশ্বদৃষ্টির প্রতিফলন। সিডনি বিশ্ববিদ্যালয়ের গবেষক রেবেকা জনসনের ২০২২ সালের একটি গবেষণাপত্রে দেখা গেছে যে ChatGPT-3 বন্দুক নিয়ন্ত্রণ এবং শরণার্থী নীতির মতো বিষয়গুলির উপর উত্তর তৈরি করেছে যা বিশ্ব মূল্যবোধ জরিপে প্রকাশিত আমেরিকান মূল্যবোধের সাথে তুলনীয়।

ফলস্বরূপ, অনেক গবেষক কম ব্যবহৃত ভাষাগুলিতে LLM-কে সাবলীল করে তোলার চেষ্টা করছেন। টেকনিক্যালি, একটি পদ্ধতি হল ভাষার জন্য টোকেনাইজার পরিবর্তন করা। Sarvam AI নামে একটি ভারতীয় স্টার্টআপ হিন্দির জন্য অপ্টিমাইজ করা একটি টোকেনাইজার, অথবা OpenHathi মডেল - দেবনাগরী ভাষা অপ্টিমাইজ করা LLM (ভারত) লিখেছে যা প্রশ্নের উত্তর দেওয়ার খরচ উল্লেখযোগ্যভাবে কমাতে পারে।

আরেকটি উপায় হল LLM প্রশিক্ষণপ্রাপ্ত ডেটাসেটগুলিকে উন্নত করা। নভেম্বর মাসে, আবুধাবির মোহাম্মদ বিন জায়েদ বিশ্ববিদ্যালয়ের গবেষকদের একটি দল তাদের আরবি-ভাষী মডেলের সর্বশেষ সংস্করণ প্রকাশ করেছে, যার নাম "জাইস"। এটি ChatGPT-3 এর প্যারামিটারের এক-ষষ্ঠাংশ, তবে আরবি ভাষায় প্রায় ভালো পারফর্ম করে।

মোহাম্মদ বিন জায়েদ বিশ্ববিদ্যালয়ের সভাপতি টিমোথি বাল্ডউইন উল্লেখ করেছেন যে যদিও তার দল অনেক আরবি লেখা ডিজিটাইজ করেছে, তবুও কিছু ইংরেজি লেখা মডেলে অন্তর্ভুক্ত ছিল। কিছু ধারণা সব ভাষায় একই এবং যেকোনো ভাষায় শেখা যায়।

তৃতীয় পদ্ধতি হল প্রশিক্ষণের পর মডেলদের সূক্ষ্ম-টিউন করা। জাইস এবং ওপেনহাথি উভয়েরই মানব-সৃষ্ট প্রশ্ন-উত্তর জোড়া রয়েছে। ভুল তথ্য রোধ করার জন্য পশ্চিমা চ্যাটবটগুলির ক্ষেত্রেও একই কথা প্রযোজ্য।

চীনের একটি বৃহৎ প্রযুক্তি কোম্পানি বাইদুর একজন এলএলএম, আর্নি বট, সরকারকে আপত্তিকর হতে পারে এমন বক্তব্য সীমিত করার জন্য তৈরি করা হয়েছে। মডেলগুলি মানুষের প্রতিক্রিয়া থেকেও শিখতে পারে, ব্যবহারকারীরা এলএলএম-এর উত্তরগুলি রেটিং করে। কিন্তু কম উন্নত অঞ্চলের অনেক ভাষার জন্য এটি করা কঠিন কারণ মেশিনের প্রতিক্রিয়াগুলি সমালোচনা করার জন্য যোগ্য লোক নিয়োগের প্রয়োজন হয়।

(ইকোনমিস্টের মতে)

মার্কিন সেনাবাহিনী গুরুত্বপূর্ণ খনিজ পদার্থের দাম নির্ধারণে কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে । মার্কিন সেনাবাহিনী নিকেল, কোবাল্ট এবং অন্যান্য গুরুত্বপূর্ণ খনিজ পদার্থের দাম নির্ধারণ এবং সরবরাহের পূর্বাভাস দিতে সক্ষম একটি কম্পিউটার প্রোগ্রাম তৈরির পরিকল্পনা করছে।