מודלים של בינה מלאכותית זקוקים לסטנדרטים שמעריכים לעומק יכולות מורכבות

דו"ח סטטוס הפיתוח (LLM) של VMLU (פלטפורמת הלמידה, ההערכה והדירוג לתואר שני בשפה הווייטנאמית) לשנת 2024 הראה עלייה חדה במספר התואר השני בשפה הווייטנאמית. באופן ספציפי, פלטפורמת VMLU פרסמה 45 תואר ראשון בשפה הווייטנאמית בדירוג, קיבלה בקשות להערכה מיותר מ-155 ארגונים ואנשים פרטיים, וסיכמה 691 הורדות של קריטריוני ההערכה ו-3,729 הערכות לתואר ראשון בשפה הווייטנאמית מהפלטפורמה בשנת 2024.

ארגונים מקומיים וזרים רבים משתמשים ב-VMLU כגון VinBigData, VNPT AI, Viettel Solutions, אוניברסיטת הטכנולוגיה - VNU-HCM, UONLP x Ontocord - אוניברסיטת אורגון (ארה"ב), DAMO Academy - קבוצת Alibaba, צוותי SDSRV - סמסונג...

אנגלית 1 של VMLU

VMLU תשיק את סט הקריטריונים הראשון שלה להערכה לתואר ראשון במשפטים בשנת 2023.

יחד עם העלייה בכמות, גם איכותם של מודלי LLM משתפרת יותר ויותר. אם בעבר, תואר שני ב-LLM אומן סביב ידע בסיסי, כיום מפתחים מתמקדים בהרחבת מיומנויות נוספות כמו הבנת הנקרא, חילופי שיחות או חשיבה אנושית.

בתגובה להתפתחות ההולכת וגוברת של מודלים מתקדמים של תואר שני במשפטים בווייטנאם, פרסמה VMLU סטים חדשים של סטנדרטים כדי להעריך עוד יותר את היכולות המורכבות של המודלים.

סטנדרטים המקדמים מצוינות בתואר שני במשפטים

בעבר, כאשר השוק חסר תקני איכות, קבוצות מחקר מקומיות רבות נאלצו לבנות כלי הערכה פנימיים משלהן עם תקני מחקר משלהן. דבר זה הגביל את ההערכה וכן את ההשוואה של איכות המודל עם תוכניות לימודי משפטים קיימות בשוק, על מנת שיהיו להן אסטרטגיות הכשרה מתאימות.

כדי לפתור בעיה זו, בנובמבר 2023, VMLU - הסט הראשון של סטנדרטים משותפים "Made in Vietnam" נחקר על ידי צוות של מומחים וייטנאמים מובילים וסופק ללא תשלום לקהילה.

הסט הסטנדרטי של 10,880 שאלות רב-ברירה, המכסות 58 נושאים, המחולקות לרמות רבות, סייע למפתחים לגשת בקלות למערכי נתוני הערכה כלליים. במקביל, ניתן לנצל את הדירוגים של VMLU כדי להשוות ישירות את המודלים שלהם עם תוכניות לימודי משפטים קיימות בשוק.

ד"ר דאנג טראן תאי, ראש המחלקה לעיבוד שפה טבעית - VinBigData Virtual Assistant Technology Block, שמודל ה-ViGPT-1.6B-v1 שלו נמצא בדירוג המודלים מאפס (LLM שאומנו מאפס) של VMLU, אמר: "ל-VMLU יש נתונים יחסית מלאים ומקיפים כדי להעריך את קיבולת הידע של LLM עבור וייטנאמים. VMLU לא רק שימושית להערכת איכות ה-LLM בכל שלב פיתוח, אלא גם מהווה מדד ליעילות הניסויים שלנו במהלך תהליך האימון."

"זה יהיה 'קרש קפיצה' לקידום פיתוח הבינה המלאכותית באופן כללי ותואר ראשון במשפטים בפרט, משום שעלינו שיהיו לנו סטנדרטים טובים כדי שיהיה לנו בסיס להכשרת מודלים איכותיים", הוסיף ד"ר דאנג טראן תאי.

מהנדס ראשי במיקרוסופט - ד"ר באך הונג נגוין, אישר גם את התועלת של VMLU בהערכת ביצועי מודלים של תואר שני במשפטים (LLM) בווייטנאמית, וסייע ליחידות פיתוח להבין טוב יותר את יכולות המודל. בנוסף, ד"ר באך הונג נגוין מצפה ש-VMLU תוסיף סט של מיומנויות שימושיות כגון חשיבה, יצירת קוד וסיכום טקסט.

גרסה חדשה של VMLU שואפת לשכלל מודלים של LLM מסדר גבוה יותר

לאחרונה, VMLU ממשיכה להכריז על סט חדש של סטנדרטים, הבוחנים את יכולות החשיבה והאינטראקציה של תואר שני במשפטים. סט הסטנדרטים המורחב מעריך 3 מיומנויות ליבה של תואר שני במשפטים מודרני, כולל:

הבנת הנקרא (ViSQuAD) : 3,310 שאלות מעריכות את היכולת להבין טקסט לעומק ולתמודד עם שאלות מורכבות המבוססות על המאפיינים הספציפיים של השפה וההקשר הוייטנאמיים.

חשיבה (ViDrop) : 3,090 שאלות מאתגרות את יכולות החשיבה הלוגית של תואר שני במשפטים באמצעות משימות כגון השוואה, ספירה וחישובי חשבון.

אינטראקציה (ViDialog) : 210 דיאלוגים מעריכים קוהרנטיות, יכולת להבין הקשר וליישם ידע רב-תחומי (היסטוריה, גיאוגרפיה, לוגיקה) בדיאלוג.

שדרוג זה לא רק עוזר למפתחים להעריך מודלים בצורה מקיפה יותר, אלא גם מקדם את לימודי התואר השני (LLM) ליצירת ערכים שימושיים עבור משתמשי הקצה.

אח 2 של VMLU

סטנדרטים חדשים של VMLU יפורסמו בשנת 2025.

ד"ר צ'או טאנה דוק, מנהל מחקר ופיתוח בינה מלאכותית ב-Zalo AI - הארגון שפיתח את VMLU, אמר: "כיום קיימים מאות סטנדרטים שונים בעולם להערכת היכולת של מודלים של שפה גדולים. עם זאת, מספר סטנדרטי ההערכה המיועדים במיוחד לווייטנאמית מוגבל מאוד. עם השקת הסטנדרטים ב-2023 וב-2025, אנו מקווים לגוון את היבטי ההערכה."

סט הסטנדרטים החדש הושק באתר האינטרנט של VMLU https://vmlu.ai/ כדי שאנשים פרטיים וקבוצות מחקר יוכלו להעריך את המודלים שלהם.

אח VMLU 3

סט הסטנדרטים החדש עודכן באתר האינטרנט של VMLU.

VMLU היא פלטפורמה להערכה ודירוג של מודלים וייטנאמיים לתואר שני במשפטים (LLM), שנבנתה על ידי Zalo AI בשיתוף פעולה עם המכון היפני המתקדם למדע וטכנולוגיה (JAIST) ומסופקת ללא תשלום לקהילה החל מנובמבר 2023. במאמץ ללוות את קהילת הבינה המלאכותית הווייטנאמית, VMLU תורמת לקידום יכולתו של העם הווייטנאמי לשלוט בטכנולוגיות חדשות. בכך, תורמת לעידן הפיתוח הטכנולוגי של המדינה עם אוריינטציה פורצת דרך במדע, טכנולוגיה, חדשנות וטרנספורמציה דיגיטלית לאומית.

מקור: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html