OpenAI اطلاعات زیادی در مورد نحوه آموزش ChatGPT-4 فاش نکرده است. با این حال، مدل‌های زبانی بزرگ (LLM) معمولاً بر روی متن‌های استخراج‌شده از اینترنت آموزش داده می‌شوند، جایی که انگلیسی زبان میانجی است. حدود ۹۳٪ از داده‌های آموزشی ChatGPT-3 به زبان انگلیسی است.

در Common Crawl، تنها یکی از مجموعه داده‌هایی که مدل هوش مصنوعی بر اساس آن آموزش دیده است، زبان انگلیسی ۴۷٪ از مجموعه داده‌ها را تشکیل می‌دهد و سایر زبان‌های اروپایی ۳۸٪ دیگر را تشکیل می‌دهند. در مقابل، زبان‌های چینی و ژاپنی روی هم رفته تنها ۹٪ را تشکیل می‌دهند.

تصویر صفحه ۲۰۲۴ ۰۱ ۳۱ در ۱۵۱۷۰۹.png
بیشتر داده‌های مورد استفاده برای آموزش LLM به زبان انگلیسی یا سایر زبان‌های اروپایی است.

همانطور که ناتانیل رابینسون، محقق دانشگاه جانز هاپکینز، و همکارانش دریافتند، این مشکل فقط به ChatGPT محدود نمی‌شود. همه LLMها در زبان‌های «پرمنبع» که داده‌های آموزشی فراوان بودند، نسبت به زبان‌های «کم‌منبع» که داده‌های آموزشی کمیاب بودند، عملکرد بهتری داشتند.

این برای کسانی که امیدوارند هوش مصنوعی را به کشورهای فقیر بیاورند تا زمینه‌هایی از آموزش گرفته تا سلامت را بهبود بخشند، مشکل‌ساز است. در نتیجه، محققان در سراسر جهان در تلاشند تا هوش مصنوعی را چندزبانه‌تر کنند.

سپتامبر گذشته، دولت هند یک چت‌بات راه‌اندازی کرد تا به کشاورزان کمک کند تا از اطلاعات مفید دولت مطلع شوند.

شانکار ماروادا از بنیاد EkStep، سازمان غیرانتفاعی که به ساخت این چت‌بات کمک کرده است، گفت که این ربات با ترکیب دو نوع مدل زبانی کار می‌کند و به کاربران اجازه می‌دهد تا پرسش‌های خود را به زبان مادری خود ارسال کنند. این پرسش‌های زبان مادری به نرم‌افزار ترجمه ماشینی در یک مرکز تحقیقاتی هندی منتقل می‌شوند که آنها را قبل از ارسال پاسخ به LLM، که پاسخ را پردازش می‌کند، به انگلیسی ترجمه می‌کند. در نهایت، پاسخ به زبان مادری کاربر ترجمه می‌شود.

این فرآیند ممکن است جواب بدهد، اما ترجمه‌ی پرسش‌ها به زبان «ترجیحی» LLM یک راه‌حل ناشیانه است. زبان بازتابی از فرهنگ و جهان‌بینی است. مقاله‌ای در سال ۲۰۲۲ توسط ربکا جانسون، محقق دانشگاه سیدنی، نشان داد که ChatGPT-3 پاسخ‌هایی در مورد موضوعاتی مانند کنترل اسلحه و سیاست پناهندگان ارائه می‌دهد که با ارزش‌های آمریکایی بیان شده در «نظرسنجی ارزش‌های جهانی» قابل مقایسه است.

در نتیجه، بسیاری از محققان در تلاشند تا LLM ها را به زبان‌های کمتر استفاده شده مسلط کنند. از نظر فنی، یک رویکرد، اصلاح توکنایزر برای زبان است. یک استارتاپ هندی به نام Sarvam AI یک توکنایزر بهینه شده برای زبان هندی یا مدل OpenHathi - LLM بهینه شده برای زبان Devanagari (هند) نوشته است که می‌تواند هزینه پاسخ به سوالات را به میزان قابل توجهی کاهش دهد.

راه دیگر، بهبود مجموعه داده‌هایی است که LLM بر روی آنها آموزش داده می‌شود. در ماه نوامبر، تیمی از محققان دانشگاه محمد بن زاید در ابوظبی آخرین نسخه از مدل زبان عربی خود را با نام «Jais» منتشر کردند. این مدل یک ششم تعداد پارامترهای ChatGPT-3 را دارد، اما عملکرد آن روی زبان عربی تقریباً مشابه است.

تیموتی بالدوین، رئیس دانشگاه محمد بن زاید، خاطرنشان کرد که اگرچه تیمش مقدار زیادی از متون عربی را دیجیتالی کرده است، اما برخی از متون انگلیسی هنوز در مدل گنجانده شده‌اند. برخی مفاهیم در همه زبان‌ها یکسان هستند و می‌توان آنها را به هر زبانی آموخت.

رویکرد سوم، تنظیم دقیق مدل‌ها پس از آموزش است. هم Jais و هم OpenHathi تعدادی جفت پرسش و پاسخ تولید شده توسط انسان دارند. همین امر در مورد چت‌بات‌های غربی نیز صدق می‌کند تا از اطلاعات نادرست جلوگیری شود.

ارنی بات، یک LLM از بایدو، یک شرکت بزرگ فناوری چینی، طوری تنظیم شده است که گفتاری را که ممکن است به دولت توهین کند، محدود کند. این مدل‌ها همچنین می‌توانند از بازخورد انسانی یاد بگیرند و کاربران به پاسخ‌های LLM امتیاز می‌دهند. اما انجام این کار برای بسیاری از زبان‌ها در مناطق کمتر توسعه‌یافته دشوار است زیرا نیاز به استخدام افراد واجد شرایط برای نقد پاسخ‌های ماشین وجود دارد.

(به نقل از اکونومیست)

ارتش ایالات متحده از هوش مصنوعی برای تخمین قیمت مواد معدنی حیاتی استفاده می‌کند ارتش ایالات متحده در حال برنامه‌ریزی برای توسعه یک برنامه کامپیوتری است که قادر به تخمین قیمت‌ها و پیش‌بینی عرضه نیکل، کبالت و سایر مواد معدنی حیاتی باشد.