OpenAI לא חשפה הרבה על אופן האימון של ChatGPT-4. עם זאת, מודלים של שפות גדולות (LLMs) מאומנים בדרך כלל על טקסט שנלקח מהאינטרנט, כאשר אנגלית היא הלינגואה פרנקה. כ-93% מנתוני האימון של ChatGPT-3 הם באנגלית.

ב-Common Crawl, רק אחד ממערכי הנתונים שעליהם אומן מודל הבינה המלאכותית, אנגלית מהווה 47% מהקורפוס, בעוד ששפות אירופאיות אחרות מהוות 38% נוספות. לעומת זאת, סינית ויפנית יחד מהוות רק 9%.

צילום מסך 2024 01 31 ב-151709.png
רוב הנתונים המשמשים להכשרה לתואר ראשון במשפטים הם באנגלית או בשפות אירופאיות אחרות.

בעיה זו אינה מוגבלת ל-ChatGPT בלבד, כפי שגילו נתנאל רובינסון, חוקר באוניברסיטת ג'ונס הופקינס, ועמיתיו. כל תלמידי ה-LLM הציגו ביצועים טובים יותר בשפות "עתירות משאבים", שבהן נתוני האימון היו בשפע, מאשר בשפות "דלות משאבים", שבהן הם היו נדירים.

זוהי בעיה עבור אלו המקווים להביא את הבינה המלאכותית למדינות עניות כדי לשפר תחומים, החל מחינוך ועד בריאות. כתוצאה מכך, חוקרים ברחבי העולם פועלים כדי להפוך את הבינה המלאכותית לשונית יותר.

בספטמבר האחרון, ממשלת הודו השיקה צ'אטבוט כדי לעזור לחקלאים להתעדכן במידע שימושי מהממשלה.

שנקר מרוודה מקרן EkStep, העמותה שסייעה בבניית הצ'אטבוט, אמר שהבוט פועל על ידי שילוב של שני סוגים של מודלים של שפה, המאפשרים למשתמשים להגיש שאילתות בשפת האם שלהם. שאילתות אלו בשפת האם מועברות לתוכנת תרגום מכונה במתקן מחקר הודי, אשר מתרגמת אותן לאנגלית לפני העברת התגובה ל-LLM, אשר מעבד את התגובה. לבסוף, התגובה מתורגמת בחזרה לשפת האם של המשתמש.

תהליך זה אולי עובד, אך תרגום שאילתות לשפה "המועדפת" של תואר שני במשפטים הוא פתרון מסורבל. שפה היא השתקפות של תרבות ותפיסת עולם . מאמר משנת 2022 של רבקה ג'ונסון, חוקרת מאוניברסיטת סידני, מצא כי ChatGPT-3 הניב תשובות בנושאים כמו בקרת נשק ומדיניות פליטים שהיו דומות לערכים האמריקאים שהובעו בסקר הערכים העולמי.

כתוצאה מכך, חוקרים רבים מנסים לגרום לבעלי תואר שני במשפטים (LLMs) לשלוט בשפות פחות נפוצות. מבחינה טכנית, גישה אחת היא לשנות את טוקנייזר (tokenizer) עבור השפה. סטארט-אפ הודי בשם Sarvam AI כתב טוקנייזר המותאם להינדית, או מודל OpenHathi - LLM מותאם לשפת דוונגארי (הודו), שיכול להפחית משמעותית את עלות מענה השאלות.

דרך נוספת היא לשפר את מערכי הנתונים עליהם מאומנים תוכניות לימודים לתואר שני (LLM). בנובמבר, צוות חוקרים מאוניברסיטת מוחמד בן זאיד באבו דאבי פרסם את הגרסה האחרונה של מודל דוברי הערבית שלהם, הנקראת "ג'איס". מספר הפרמטרים שלו הוא שישית ממספר הפרמטרים של ChatGPT-3, אך הוא מתפקד בערך באותה מידה על ערבית.

טימותי בולדווין, נשיא אוניברסיטת מוחמד בן זאיד, ציין כי למרות שצוותו דיגיטציה של טקסט ערבי רב, עדיין נכלל טקסט באנגלית במודל. חלק מהמושגים זהים בכל השפות וניתן ללמוד אותם בכל שפה.

גישה שלישית היא לכוונן מודלים לאחר שהם אומנו. גם ל-Jais וגם ל-OpenHathi יש מספר זוגות שאלות-תשובות שנוצרו על ידי בני אדם. אותו הדבר נכון גם לגבי צ'אטבוטים מערביים, כדי למנוע מידע שגוי.

ארני בוט, תואר שני במשפטים (LLM) מחברת Baidu, חברת טכנולוגיה סינית גדולה, כוון את המודלים להגביל דיבור שעלול לפגוע בממשלה. המודלים יכולים גם ללמוד ממשוב אנושי, כאשר משתמשים מדרגים את תשובות ה-LLM. אבל זה קשה לעשות עבור שפות רבות באזורים פחות מפותחים בגלל הצורך לשכור אנשים מוסמכים כדי לבקר את תגובות המכונה.

(לפי האקונומיסט)

צבא ארה"ב משתמש בבינה מלאכותית כדי להעריך מחירים של מינרלים קריטיים צבא ארה"ב מתכנן לפתח תוכנת מחשב המסוגלת להעריך מחירים ולחזות אספקה ​​של ניקל, קובלט ומינרלים קריטיים אחרים.