הכרזה על קריטריוני ההערכה להיגיון ואינטראקציה של תואר ראשון במשפטים בווייטנאם

VMLU (הבנת שפה רב-משימתית וייטנאמית), שהוצג לראשונה בשנת 2023, הפך לסטנדרט חלוצי של "Make in Vietnam", מה שהניע קבוצות מחקר מקומיות רבות לשפר את איכות המודלים לשוניים גדולים (LLM) בווייטנאם.

על פי נתונים סטטיסטיים, בשנת 2024, VMLU הכריזה על 45 סטודנטים לתואר ראשון במשפטים (LLMs) בדירוג, קיבלה בקשות להערכה מיותר מ-155 ארגונים ואנשים פרטיים, סיכמה 691 הורדות של סט קריטריוני ההערכה ו-3,729 הערכות LLM מהפלטפורמה. סט הסטנדרטים משמש ארגונים מקומיים וזרים רבים כגון VinBigData, VNPT AI, Viettel Solutions, אוניברסיטת המדע והטכנולוגיה - VNU-HCM, UONLP x Ontocord - אוניברסיטת אורגון (ארה"ב), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Zalo AI ומכון JAIST מציגים גרסה חדשה של VMLU.

ככל שמודלים של בינה מלאכותית הופכים חכמים יותר ויותר, שודרג VMLU כדי להעריך יכולות מורכבות יותר. באופן ספציפי, מערך הסטנדרטים המורחב מעריך שלוש מיומנויות ליבה של תואר שני במשפטים מודרני, כולל:

הבנת הנקרא (ViSQuAD): 3,310 שאלות מעריכות את היכולת להבין טקסט לעומק ולתמודד עם שאלות מורכבות המבוססות על המאפיינים הספציפיים של השפה וההקשר הוייטנאמית.

חשיבה (ViDrop): 3,090 שאלות מאתגרות את יכולות החשיבה הלוגית של תואר שני במשפטים באמצעות משימות כגון השוואה, ספירה וחישובי חשבון.

אינטראקציה (ViDialog): 210 דיאלוגים מעריכים קוהרנטיות, הבנה הקשרית ויישום של ידע רב-תחומי (היסטוריה, גיאוגרפיה, לוגיקה) בדיאלוג.

גולת הכותרת של סט הסטנדרטים החדש היא שיטת ההערכה המתקדמת, המשלבת מגוון צורות, החל משאלות רב-ברירה פתוחות ועד לדרישות חשיבה שלב אחר שלב. בפרט, VMLU מיישמת את שיטת "LLM כשופט" (שימוש ב-LLM להערכת LLM) - מגמה המיושמת על ידי קהילת הבינה המלאכותית העולמית כדי להשיג תוצאות אובייקטיביות ורחבות היקף יותר.

עם 10,880 שאלות רב-ברירה, המכסות 58 נושאים, המחולקות למספר רמות, גרסת 2023 התמקדה בהערכת הידע הבסיסי ב-LLM. בינתיים, סט הסטנדרטים החדש הולך צעד קדימה, ומודד את יכולת ההיגיון והאינטראקציה של LLM בהקשרים אמיתיים . שדרוג זה לא רק עוזר למפתחים להעריך מודלים בצורה מקיפה יותר, אלא גם מקדם את ה-LLM ליצירת ערכים שימושיים עבור משתמשי הקצה.

מערך הקריטריונים המורחב מעריך את שלוש מיומנויות הליבה של תואר שני במשפטים מודרני.

"כיום קיימים מאות מדדי ייחוס שונים בעולם להערכת יכולותיהם של מודלים של שפות גדולות. עם זאת, מספר המדדים המיועדים במיוחד לווייטנאמית מוגבל מאוד. עם השקת המדדים ב-2023 וב-2025, אנו מקווים לגוון את היבטי ההערכה", אמר ד"ר צ'או טאנה דוק, מנהל מחקר ופיתוח בינה מלאכותית ב-Zalo AI.

סט הסטנדרטים החדש הושק באתר האינטרנט של VMLU https://vmlu.ai/ כדי שאנשים פרטיים וקבוצות מחקר יוכלו להעריך את המודלים שלהם.

סט הסטנדרטים החדש הושק באתר האינטרנט של VMLU.

בשיתוף פעולה של מומחים מובילים ב-Zalo AI ובמכון JAIST, VMLU תמשיך לחקור ולפתח סטנדרטים מגוונים יותר של הערכה מבחינת תחומים וקושי. בעתיד, VMLU שואפת גם לפתח סטנדרטים להערכת בטיחות ויושרה, תוך הבטחת פיתוח אחראי של מודלים לתואר שני במשפטים.

מקור: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html