OpenAI اطلاعات زیادی در مورد نحوه آموزش ChatGPT-4 فاش نکرده است. با این حال، مدلهای زبانی بزرگ (LLM) معمولاً بر روی متنهای استخراجشده از اینترنت آموزش داده میشوند، جایی که انگلیسی زبان میانجی است. حدود ۹۳٪ از دادههای آموزشی ChatGPT-3 به زبان انگلیسی است.
در Common Crawl، تنها یکی از مجموعه دادههایی که مدل هوش مصنوعی بر اساس آن آموزش دیده است، زبان انگلیسی ۴۷٪ از مجموعه دادهها را تشکیل میدهد و سایر زبانهای اروپایی ۳۸٪ دیگر را تشکیل میدهند. در مقابل، زبانهای چینی و ژاپنی روی هم رفته تنها ۹٪ را تشکیل میدهند.
همانطور که ناتانیل رابینسون، محقق دانشگاه جانز هاپکینز، و همکارانش دریافتند، این مشکل فقط به ChatGPT محدود نمیشود. همه LLMها در زبانهای «پرمنبع» که دادههای آموزشی فراوان بودند، نسبت به زبانهای «کممنبع» که دادههای آموزشی کمیاب بودند، عملکرد بهتری داشتند.
این برای کسانی که امیدوارند هوش مصنوعی را به کشورهای فقیر بیاورند تا زمینههایی از آموزش گرفته تا سلامت را بهبود بخشند، مشکلساز است. در نتیجه، محققان در سراسر جهان در تلاشند تا هوش مصنوعی را چندزبانهتر کنند.
سپتامبر گذشته، دولت هند یک چتبات راهاندازی کرد تا به کشاورزان کمک کند تا از اطلاعات مفید دولت مطلع شوند.
شانکار ماروادا از بنیاد EkStep، سازمان غیرانتفاعی که به ساخت این چتبات کمک کرده است، گفت که این ربات با ترکیب دو نوع مدل زبانی کار میکند و به کاربران اجازه میدهد تا پرسشهای خود را به زبان مادری خود ارسال کنند. این پرسشهای زبان مادری به نرمافزار ترجمه ماشینی در یک مرکز تحقیقاتی هندی منتقل میشوند که آنها را قبل از ارسال پاسخ به LLM، که پاسخ را پردازش میکند، به انگلیسی ترجمه میکند. در نهایت، پاسخ به زبان مادری کاربر ترجمه میشود.
این فرآیند ممکن است جواب بدهد، اما ترجمهی پرسشها به زبان «ترجیحی» LLM یک راهحل ناشیانه است. زبان بازتابی از فرهنگ و جهانبینی است. مقالهای در سال ۲۰۲۲ توسط ربکا جانسون، محقق دانشگاه سیدنی، نشان داد که ChatGPT-3 پاسخهایی در مورد موضوعاتی مانند کنترل اسلحه و سیاست پناهندگان ارائه میدهد که با ارزشهای آمریکایی بیان شده در «نظرسنجی ارزشهای جهانی» قابل مقایسه است.
در نتیجه، بسیاری از محققان در تلاشند تا LLM ها را به زبانهای کمتر استفاده شده مسلط کنند. از نظر فنی، یک رویکرد، اصلاح توکنایزر برای زبان است. یک استارتاپ هندی به نام Sarvam AI یک توکنایزر بهینه شده برای زبان هندی یا مدل OpenHathi - LLM بهینه شده برای زبان Devanagari (هند) نوشته است که میتواند هزینه پاسخ به سوالات را به میزان قابل توجهی کاهش دهد.
راه دیگر، بهبود مجموعه دادههایی است که LLM بر روی آنها آموزش داده میشود. در ماه نوامبر، تیمی از محققان دانشگاه محمد بن زاید در ابوظبی آخرین نسخه از مدل زبان عربی خود را با نام «Jais» منتشر کردند. این مدل یک ششم تعداد پارامترهای ChatGPT-3 را دارد، اما عملکرد آن روی زبان عربی تقریباً مشابه است.
تیموتی بالدوین، رئیس دانشگاه محمد بن زاید، خاطرنشان کرد که اگرچه تیمش مقدار زیادی از متون عربی را دیجیتالی کرده است، اما برخی از متون انگلیسی هنوز در مدل گنجانده شدهاند. برخی مفاهیم در همه زبانها یکسان هستند و میتوان آنها را به هر زبانی آموخت.
رویکرد سوم، تنظیم دقیق مدلها پس از آموزش است. هم Jais و هم OpenHathi تعدادی جفت پرسش و پاسخ تولید شده توسط انسان دارند. همین امر در مورد چتباتهای غربی نیز صدق میکند تا از اطلاعات نادرست جلوگیری شود.
ارنی بات، یک LLM از بایدو، یک شرکت بزرگ فناوری چینی، طوری تنظیم شده است که گفتاری را که ممکن است به دولت توهین کند، محدود کند. این مدلها همچنین میتوانند از بازخورد انسانی یاد بگیرند و کاربران به پاسخهای LLM امتیاز میدهند. اما انجام این کار برای بسیاری از زبانها در مناطق کمتر توسعهیافته دشوار است زیرا نیاز به استخدام افراد واجد شرایط برای نقد پاسخهای ماشین وجود دارد.
(به نقل از اکونومیست)
منبع
نظر (0)