ChatGPT-4 কীভাবে প্রশিক্ষিত হয়েছিল সে সম্পর্কে OpenAI খুব বেশি কিছু প্রকাশ করেনি। তবে, বৃহৎ ভাষা মডেলগুলি (LLM) সাধারণত ইন্টারনেট থেকে সংগৃহীত পাঠ্যের উপর প্রশিক্ষিত হয়, যেখানে ইংরেজিই মূল ভাষা। ChatGPT-3 এর প্রশিক্ষণ তথ্যের প্রায় 93% ইংরেজিতে।
কমন ক্রল, যে ডেটাসেটের উপর এআই মডেলটি প্রশিক্ষিত করা হয়েছিল, তার মধ্যে একটি, ইংরেজি ৪৭% কর্পাস তৈরি করে, অন্যান্য ইউরোপীয় ভাষা আরও ৩৮% তৈরি করে। বিপরীতে, চীনা এবং জাপানিরা মিলিতভাবে মাত্র ৯% তৈরি করে।
জনস হপকিন্স বিশ্ববিদ্যালয়ের গবেষক নাথানিয়েল রবিনসন এবং তার সহকর্মীরা যেমনটি আবিষ্কার করেছেন, এটি কেবল চ্যাটজিপিটির মধ্যেই সীমাবদ্ধ সমস্যা নয়। সমস্ত এলএলএম "উচ্চ-সম্পদ" ভাষাগুলিতে ভাল পারফর্ম করেছে, যেখানে প্রশিক্ষণের তথ্য প্রচুর ছিল, "কম-সম্পদ" ভাষাগুলির তুলনায়, যেখানে এটি দুষ্প্রাপ্য ছিল।
যারা দরিদ্র দেশগুলিতে শিক্ষা থেকে শুরু করে স্বাস্থ্য পর্যন্ত ক্ষেত্রগুলির উন্নতির জন্য AI নিয়ে আসার আশা করছেন তাদের জন্য এটি একটি সমস্যা। ফলস্বরূপ, বিশ্বজুড়ে গবেষকরা AI কে আরও বহুভাষিক করার জন্য কাজ করছেন।
গত সেপ্টেম্বরে, ভারত সরকার কৃষকদের সরকারের কাছ থেকে দরকারী তথ্যের সাথে আপডেট থাকতে সাহায্য করার জন্য একটি চ্যাটবট চালু করেছে।
চ্যাটবট তৈরিতে সাহায্যকারী অলাভজনক প্রতিষ্ঠান একস্টেপ ফাউন্ডেশনের শঙ্কর মারুওয়াদা বলেন, এই বট দুটি ধরণের ভাষা মডেলকে একত্রিত করে কাজ করে, যার ফলে ব্যবহারকারীরা তাদের মাতৃভাষায় প্রশ্ন জমা দিতে পারেন। এই স্থানীয় ভাষার প্রশ্নগুলি একটি ভারতীয় গবেষণা কেন্দ্রের মেশিন অনুবাদ সফ্টওয়্যারে পাঠানো হয়, যা সেগুলিকে ইংরেজিতে অনুবাদ করে LLM-এ পাঠানোর আগে, প্রতিক্রিয়া প্রক্রিয়া করে। অবশেষে, প্রতিক্রিয়াটি ব্যবহারকারীর মাতৃভাষায় আবার অনুবাদ করা হয়।
এই প্রক্রিয়াটি কাজ করতে পারে, কিন্তু LLM-এর "পছন্দের" ভাষায় প্রশ্ন অনুবাদ করা একটি আনাড়ি সমাধান। ভাষা সংস্কৃতি এবং বিশ্বদৃষ্টির প্রতিফলন। সিডনি বিশ্ববিদ্যালয়ের গবেষক রেবেকা জনসনের ২০২২ সালের একটি গবেষণাপত্রে দেখা গেছে যে ChatGPT-3 বন্দুক নিয়ন্ত্রণ এবং শরণার্থী নীতির মতো বিষয়গুলির উপর উত্তর তৈরি করেছে যা বিশ্ব মূল্যবোধ জরিপে প্রকাশিত আমেরিকান মূল্যবোধের সাথে তুলনীয়।
ফলস্বরূপ, অনেক গবেষক কম ব্যবহৃত ভাষাগুলিতে LLM-কে সাবলীল করে তোলার চেষ্টা করছেন। টেকনিক্যালি, একটি পদ্ধতি হল ভাষার জন্য টোকেনাইজার পরিবর্তন করা। Sarvam AI নামে একটি ভারতীয় স্টার্টআপ হিন্দির জন্য অপ্টিমাইজ করা একটি টোকেনাইজার, অথবা OpenHathi মডেল - দেবনাগরী ভাষা অপ্টিমাইজ করা LLM (ভারত) লিখেছে যা প্রশ্নের উত্তর দেওয়ার খরচ উল্লেখযোগ্যভাবে কমাতে পারে।
আরেকটি উপায় হল LLM প্রশিক্ষণপ্রাপ্ত ডেটাসেটগুলিকে উন্নত করা। নভেম্বর মাসে, আবুধাবির মোহাম্মদ বিন জায়েদ বিশ্ববিদ্যালয়ের গবেষকদের একটি দল তাদের আরবি-ভাষী মডেলের সর্বশেষ সংস্করণ প্রকাশ করেছে, যার নাম "জাইস"। এটি ChatGPT-3 এর প্যারামিটারের এক-ষষ্ঠাংশ, তবে আরবি ভাষায় প্রায় ভালো পারফর্ম করে।
মোহাম্মদ বিন জায়েদ বিশ্ববিদ্যালয়ের সভাপতি টিমোথি বাল্ডউইন উল্লেখ করেছেন যে যদিও তার দল অনেক আরবি লেখা ডিজিটাইজ করেছে, তবুও কিছু ইংরেজি লেখা মডেলে অন্তর্ভুক্ত ছিল। কিছু ধারণা সব ভাষায় একই এবং যেকোনো ভাষায় শেখা যায়।
তৃতীয় পদ্ধতি হল প্রশিক্ষণের পর মডেলদের সূক্ষ্ম-টিউন করা। জাইস এবং ওপেনহাথি উভয়েরই মানব-সৃষ্ট প্রশ্ন-উত্তর জোড়া রয়েছে। ভুল তথ্য রোধ করার জন্য পশ্চিমা চ্যাটবটগুলির ক্ষেত্রেও একই কথা প্রযোজ্য।
চীনের একটি বৃহৎ প্রযুক্তি কোম্পানি বাইদুর একজন এলএলএম, আর্নি বট, সরকারকে আপত্তিকর হতে পারে এমন বক্তব্য সীমিত করার জন্য তৈরি করা হয়েছে। মডেলগুলি মানুষের প্রতিক্রিয়া থেকেও শিখতে পারে, ব্যবহারকারীরা এলএলএম-এর উত্তরগুলি রেটিং করে। কিন্তু কম উন্নত অঞ্চলের অনেক ভাষার জন্য এটি করা কঠিন কারণ মেশিনের প্রতিক্রিয়াগুলি সমালোচনা করার জন্য যোগ্য লোক নিয়োগের প্রয়োজন হয়।
(ইকোনমিস্টের মতে)
[বিজ্ঞাপন_২]
উৎস
মন্তব্য (0)