OpenAI نے اس بارے میں زیادہ انکشاف نہیں کیا ہے کہ ChatGPT-4 کو کس طرح تربیت دی گئی تھی۔ تاہم، بڑے لینگوئج ماڈلز (LLMs) کو عام طور پر انٹرنیٹ سے سکریپ کیے گئے ٹیکسٹ پر تربیت دی جاتی ہے، جہاں انگریزی زبان کی زبان ہے۔ ChatGPT-3 کا تقریباً 93% تربیتی ڈیٹا انگریزی میں ہے۔

کامن کرال میں، صرف ایک ڈیٹا سیٹ جس پر AI ماڈل کو تربیت دی گئی تھی، انگریزی کا 47% حصہ ہے، جب کہ دیگر یورپی زبانیں مزید 38% بنتی ہیں۔ اس کے برعکس، چینی اور جاپانی مل کر صرف 9 فیصد بنتے ہیں۔

اسکرین شاٹ 2024 01 31 151709.png پر
ایل ایل ایم کی تربیت کے لیے استعمال ہونے والا زیادہ تر ڈیٹا انگریزی یا دیگر یورپی زبانوں میں ہے۔

یہ صرف ChatGPT تک ہی محدود مسئلہ نہیں ہے، جیسا کہ جانز ہاپکنز یونیورسٹی کے محقق نتھانیئل رابنسن اور ان کے ساتھیوں نے پایا۔ تمام LLMs نے "ہائی ریسورس" زبانوں پر بہتر کارکردگی کا مظاہرہ کیا، جہاں تربیتی ڈیٹا بہت زیادہ تھا، "کم وسائل والی" زبانوں کے مقابلے میں، جہاں اس کی کمی تھی۔

یہ ان لوگوں کے لیے ایک مسئلہ ہے جو تعلیم سے لے کر صحت تک کے شعبوں کو بہتر بنانے کے لیے AI کو غریب ممالک میں لانے کی امید رکھتے ہیں۔ نتیجے کے طور پر، دنیا بھر کے محققین AI کو مزید کثیر لسانی بنانے کے لیے کام کر رہے ہیں۔

گزشتہ ستمبر میں، ہندوستانی حکومت نے کسانوں کو حکومت کی مفید معلومات کے ساتھ اپ ڈیٹ رہنے میں مدد کے لیے ایک چیٹ بوٹ کا آغاز کیا۔

ایک سٹیپ فاؤنڈیشن کے شنکر مروواڈا، غیر منافع بخش تنظیم جس نے چیٹ بوٹ بنانے میں مدد کی، کہا کہ یہ بوٹ دو قسم کے لینگویج ماڈلز کو ملا کر کام کرتا ہے، جس سے صارفین اپنی مادری زبان میں سوالات جمع کر سکتے ہیں۔ یہ مادری زبان کے سوالات ہندوستانی تحقیقی سہولت پر مشین ٹرانسلیشن سافٹ ویئر کو بھیجے جاتے ہیں، جو جواب کو ایل ایل ایم کو آگے بھیجنے سے پہلے ان کا انگریزی میں ترجمہ کرتا ہے، جو جواب پر کارروائی کرتا ہے۔ آخر میں، جواب کا ترجمہ صارف کی مادری زبان میں کیا جاتا ہے۔

یہ عمل کام کر سکتا ہے، لیکن سوالات کو LLM کی "ترجیحی" زبان میں ترجمہ کرنا ایک اناڑی کام ہے۔ زبان ثقافت اور عالمی نظریہ کی عکاس ہوتی ہے۔ یونیورسٹی آف سڈنی کی ایک محقق ربیکا جانسن کے 2022 کے ایک مقالے میں پتا چلا کہ ChatGPT-3 نے گن کنٹرول اور پناہ گزین پالیسی جیسے موضوعات پر جوابات تیار کیے جو کہ عالمی اقدار کے سروے میں بیان کی گئی امریکی اقدار سے موازنہ کر سکتے ہیں۔

نتیجے کے طور پر، بہت سے محققین LLMs کو کم عام استعمال ہونے والی زبانوں میں روانی بنانے کی کوشش کر رہے ہیں۔ تکنیکی طور پر، ایک نقطہ نظر زبان کے لیے ٹوکنائزر میں ترمیم کرنا ہے۔ سروام اے آئی نامی ایک ہندوستانی اسٹارٹ اپ نے ہندی کے لیے موزوں ٹوکنائزر لکھا ہے، یا اوپن ہاتھی ماڈل - دیوناگری لینگویج آپٹیمائزڈ ایل ایل ایم (انڈیا) جو سوالات کے جوابات کی لاگت کو نمایاں طور پر کم کر سکتا ہے۔

دوسرا طریقہ ان ڈیٹاسیٹس کو بہتر بنانا ہے جس پر ایل ایل ایم کی تربیت کی جاتی ہے۔ نومبر میں، ابوظہبی کی محمد بن زید یونیورسٹی میں محققین کی ایک ٹیم نے اپنے عربی بولنے والے ماڈل کا تازہ ترین ورژن جاری کیا، جسے "جیس" کہا جاتا ہے۔ اس میں ChatGPT-3 کے پیرامیٹرز کی تعداد کا چھٹا حصہ ہے، لیکن یہ عربی میں بھی کارکردگی دکھاتا ہے۔

محمد بن زید یونیورسٹی کے صدر ٹموتھی بالڈون نے نوٹ کیا کہ اگرچہ ان کی ٹیم نے بہت سارے عربی متن کو ڈیجیٹائز کیا ہے، لیکن کچھ انگریزی متن اب بھی ماڈل میں شامل تھا۔ کچھ تصورات تمام زبانوں میں ایک جیسے ہوتے ہیں اور کسی بھی زبان میں سیکھے جا سکتے ہیں۔

تیسرا طریقہ یہ ہے کہ تربیت حاصل کرنے کے بعد ماڈلز کو ٹھیک بنایا جائے۔ Jais اور OpenHathi دونوں کے پاس انسانی تخلیق کردہ سوال جواب کے جوڑے ہیں۔ غلط معلومات کو روکنے کے لیے مغربی چیٹ بوٹس کا بھی یہی حال ہے۔

ایک بڑی چینی ٹیک کمپنی، Baidu سے LLM، Ernie Bot کو ایسی تقریر کو محدود کرنے کے لیے بنایا گیا ہے جو حکومت کو ناراض کر سکتی ہے۔ ماڈلز انسانی آراء سے بھی سیکھ سکتے ہیں، صارفین LLM کے جوابات کی درجہ بندی کرتے ہیں۔ لیکن کم ترقی یافتہ خطوں میں بہت سی زبانوں کے لیے ایسا کرنا مشکل ہے کیونکہ مشین کے جوابات پر تنقید کرنے کے لیے اہل افراد کی خدمات حاصل کرنے کی ضرورت ہے۔

(اکانومسٹ کے مطابق)

امریکی فوج اہم معدنیات کی قیمتوں کا اندازہ لگانے کے لیے AI کا استعمال کرتی ہے امریکی فوج ایک ایسا کمپیوٹر پروگرام تیار کرنے کی منصوبہ بندی کر رہی ہے جو قیمتوں کا تخمینہ لگانے اور نکل، کوبالٹ اور دیگر اہم معدنیات کی فراہمی کی پیش گوئی کرنے کے قابل ہو۔