لم تكشف OpenAI الكثير عن كيفية تدريب ChatGPT-4. لكن نماذج اللغات الكبيرة (LLMs) تُدرّب عادةً على نصوص مُستخلصة من الإنترنت، حيث تُعدّ اللغة الإنجليزية لغةً مشتركة. حوالي 93% من بيانات تدريب ChatGPT-3 كانت باللغة الإنجليزية.
في قاعدة بيانات Common Crawl، وهي واحدة فقط من مجموعات البيانات التي دُرِّب عليها نموذج الذكاء الاصطناعي، تُشكِّل اللغة الإنجليزية 47% من المجموعة، بينما تُشكِّل اللغات الأوروبية الأخرى 38% إضافية. في المقابل، تُشكِّل اللغتان الصينية واليابانية مجتمعتين 9% فقط.
هذه ليست مشكلةً تقتصر على ChatGPT فحسب، كما وجد ناثانيال روبنسون، الباحث في جامعة جونز هوبكنز، وزملاؤه. فقد كان أداء جميع برامج ماجستير القانون أفضل في اللغات "عالية الموارد"، حيث كانت بيانات التدريب وفيرة، مقارنةً باللغات "منخفضة الموارد"، حيث كانت البيانات نادرة.
تُمثل هذه مشكلةً لمن يأملون في جلب الذكاء الاصطناعي إلى الدول الفقيرة لتحسين كل شيء، من التعليم إلى الرعاية الصحية. لذا، يعمل الباحثون حول العالم على جعل الذكاء الاصطناعي أكثر تعددًا للغات.
في سبتمبر/أيلول الماضي، أطلقت الحكومة الهندية روبوت محادثة يساعد المزارعين على البقاء على اطلاع دائم بالمعلومات المفيدة من الحكومة.
قال شانكار مارووادا، من مؤسسة إكستيب، وهي منظمة غير ربحية ساهمت في تطوير روبوت المحادثة، إن الروبوت يعمل بدمج نوعين من نماذج اللغة، مما يسمح للمستخدمين بإرسال استفساراتهم بلغتهم الأم. تُمرر هذه الاستفسارات إلى برنامج ترجمة آلية في مركز أبحاث هندي، يترجمها بدوره إلى الإنجليزية قبل إرسال الرد إلى برنامج LLM الذي يعالج الرد. وأخيرًا، تُترجم الاستجابة مرة أخرى إلى لغة المستخدم الأم.
قد تنجح هذه العملية، لكن ترجمة الاستفسارات إلى اللغة "المفضلة" لبرنامج ماجستير القانون (LLM) يُعدّ حلاً بديلاً غير متقن. فاللغة انعكاس للثقافة ورؤية العالم . وقد وجدت ورقة بحثية نُشرت عام ٢٠٢٢ لريبيكا جونسون، الباحثة في جامعة سيدني، أن ChatGPT-3 قدّم إجابات حول مواضيع مثل ضبط الأسلحة وسياسة اللاجئين، تُضاهي القيم الأمريكية الواردة في مسح القيم العالمية.
نتيجةً لذلك، يسعى العديد من الباحثين إلى إتقان طلاب الماجستير في القانون للغات الأقل استخدامًا. من الناحية التقنية، تتمثل إحدى الطرق في تعديل مُجزئ اللغة. وقد طورت شركة ناشئة هندية تُدعى Sarvam AI مُجزئًا مُحسّنًا للغة الهندية، أو نموذج OpenHathi - وهو مُجزئ مُحسّن للغة الديفاناغارية (الهندية)، مما يُقلل بشكل كبير من تكلفة الإجابة على الأسئلة.
هناك طريقة أخرى لتحسين مجموعات البيانات التي يُدرَّب عليها برنامج LLM. في نوفمبر، أصدر فريق من الباحثين في جامعة محمد بن زايد بأبوظبي أحدث نسخة من نموذجهم الناطق باللغة العربية، المسمى "جيس". يحتوي هذا النموذج على سدس عدد معلمات ChatGPT-3، ولكنه يُضاهي أداء اللغة العربية.
أشار تيموثي بالدوين، رئيس جامعة محمد بن زايد، إلى أنه على الرغم من قيام فريقه برقمنة الكثير من النصوص العربية، إلا أن بعض النصوص الإنجليزية لا تزال مُضمنة في النموذج. بعض المفاهيم متشابهة في جميع اللغات، ويمكن تعلمها بأي لغة.
النهج الثالث هو ضبط النماذج بدقة بعد تدريبها. يمتلك كلٌّ من Jais وOpenHathi عددًا من أزواج الأسئلة والأجوبة المُولّدة بشريًا. وينطبق الأمر نفسه على روبوتات الدردشة الغربية، لمنع المعلومات المضللة.
تم تعديل برنامج إرني بوت، الحاصل على ماجستير في القانون من بايدو، وهي شركة تقنية صينية كبرى، للحد من الكلام الذي قد يُسيء إلى الحكومة. كما يمكن للنماذج التعلم من ردود الفعل البشرية، حيث يُقيّم المستخدمون إجابات برنامج ماجستير القانون. لكن هذا الأمر صعب التنفيذ في العديد من اللغات في المناطق الأقل نموًا نظرًا للحاجة إلى توظيف أشخاص مؤهلين لنقد إجابات الآلة.
(وفقا لمجلة الإيكونوميست)
[إعلان 2]
مصدر
تعليق (0)