VMLU (درک زبان چندوظیفهای ویتنامی) که برای اولین بار در سال ۲۰۲۳ معرفی شد، به یک مجموعه استاندارد پیشگام «ساخت ویتنام» تبدیل شده است و بسیاری از گروههای تحقیقاتی داخلی را برای بهبود کیفیت مدلهای زبانی بزرگ (LLM) ویتنامی ترغیب کرده است.
طبق آمار، در سال ۲۰۲۴، VMLU تعداد ۴۵ مدرک کارشناسی ارشد مدیریت بازرگانی (LLM) را در رتبهبندیها اعلام کرد، از بیش از ۱۵۵ سازمان و فرد درخواست ارزیابی دریافت کرد، ۶۹۱ دانلود از مجموعه معیارهای ارزیابی و ۳۷۲۹ ارزیابی LLM از این پلتفرم را خلاصه کرد. این مجموعه استانداردها توسط بسیاری از سازمانهای داخلی و خارجی مانند VinBigData، VNPT AI، Viettel Solutions، دانشگاه علوم و فناوری - VNU-HCM، UONLP x Ontocord - دانشگاه اورگان (ایالات متحده آمریکا)، DAMO Academy - گروه علیبابا، تیمهای SDSRV - سامسونگ و... استفاده میشود.
![]() |
Zalo AI و موسسه JAIST نسخه جدیدی از VMLU را معرفی کردند. |
با هوشمندتر شدن روزافزون مدلهای هوش مصنوعی، VMLU برای ارزیابی شایستگیهای پیچیدهتر ارتقا یافته است. به طور خاص، مجموعه استانداردهای توسعهیافته، سه مهارت اصلی یک LLM مدرن را ارزیابی میکند، از جمله:
درک مطلب (ViSQuAD): ۳۳۱۰ سوال، توانایی درک عمیق متن و پاسخگویی به سوالات پیچیده را بر اساس ویژگیهای خاص زبان و بافت ویتنامی ارزیابی میکند.
استدلال (ViDrop): 3090 سوال، تواناییهای استدلال منطقی LLM را از طریق وظایفی مانند مقایسه، شمارش و محاسبات ریاضی به چالش میکشد.
تعامل (ViDialog): ۲۱۰ گفتگو، انسجام، درک زمینهای و کاربرد دانش چندرشتهای (تاریخ، جغرافیا، منطق) را در گفتگو ارزیابی میکند.
نکته برجسته مجموعه جدید استانداردها، روش ارزیابی پیشرفته است که انواع مختلفی از سوالات چند گزینهای و تشریحی را با الزامات استدلال گام به گام ترکیب میکند. به طور خاص، VMLU از روش "LLM به عنوان قاضی" (استفاده از LLM برای ارزیابی LLM) استفاده میکند - روندی که توسط جامعه جهانی هوش مصنوعی برای دستیابی به نتایج عینیتر و در مقیاس بزرگ اعمال میشود.
نسخه ۲۰۲۳ با ۱۰۸۸۰ سوال چندگزینهای، شامل ۵۸ موضوع، که به سطوح مختلف تقسیم شدهاند، بر ارزیابی دانش بنیادی LLM تمرکز دارد. در همین حال، مجموعه جدید استانداردها یک قدم فراتر میرود و توانایی استدلال و تعامل LLM را در زمینههای زندگی واقعی میسنجد . این ارتقا نه تنها به توسعهدهندگان کمک میکند تا مدلها را جامعتر ارزیابی کنند، بلکه LLM را به ایجاد ارزشهای مفید برای کاربران نهایی نیز ترغیب میکند.
![]() |
مجموعه گستردهتری از معیارها، سه مهارت اصلی یک LLM مدرن را ارزیابی میکند. |
دکتر چائو تان دوک، مدیر تحقیق و توسعه هوش مصنوعی در Zalo AI، گفت: «در حال حاضر صدها معیار مختلف در جهان برای ارزیابی قابلیتهای مدلهای زبانی بزرگ وجود دارد. با این حال، تعداد معیارهای خاص برای زبان ویتنامی بسیار محدود است. با راهاندازی معیارها در سالهای ۲۰۲۳ و ۲۰۲۵، امیدواریم جنبههای ارزیابی را متنوع کنیم.»
مجموعه جدید استانداردها در وبسایت VMLU به آدرس https://vmlu.ai/ منتشر شده است تا افراد و گروههای تحقیقاتی بتوانند مدلهای خود را ارزیابی کنند.
![]() |
مجموعه جدید استانداردها در وبسایت VMLU منتشر شده است. |
با همکاری متخصصان برجسته در Zalo AI و موسسه JAIST، VMLU به تحقیق و توسعه استانداردهای ارزیابی متنوعتر از نظر زمینهها و دشواری ادامه خواهد داد. در آینده، VMLU همچنین قصد دارد استانداردهای ارزیابی ایمنی و یکپارچگی را توسعه دهد و اطمینان حاصل کند که مدلهای LLM با مسئولیتپذیری توسعه مییابند.
منبع: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html
نظر (0)