اعلام معیارهای ارزیابی برای استدلال و تعامل دوره کارشناسی ارشد حقوق ویتنامی

VMLU (درک زبان چندوظیفه‌ای ویتنامی) که برای اولین بار در سال ۲۰۲۳ معرفی شد، به یک مجموعه استاندارد پیشگام «ساخت ویتنام» تبدیل شده است و بسیاری از گروه‌های تحقیقاتی داخلی را برای بهبود کیفیت مدل‌های زبانی بزرگ (LLM) ویتنامی ترغیب کرده است.

طبق آمار، در سال ۲۰۲۴، VMLU تعداد ۴۵ مدرک کارشناسی ارشد مدیریت بازرگانی (LLM) را در رتبه‌بندی‌ها اعلام کرد، از بیش از ۱۵۵ سازمان و فرد درخواست ارزیابی دریافت کرد، ۶۹۱ دانلود از مجموعه معیارهای ارزیابی و ۳۷۲۹ ارزیابی LLM از این پلتفرم را خلاصه کرد. این مجموعه استانداردها توسط بسیاری از سازمان‌های داخلی و خارجی مانند VinBigData، VNPT AI، Viettel Solutions، دانشگاه علوم و فناوری - VNU-HCM، UONLP x Ontocord - دانشگاه اورگان (ایالات متحده آمریکا)، DAMO Academy - گروه علی‌بابا، تیم‌های SDSRV - سامسونگ و... استفاده می‌شود.

Zalo AI و موسسه JAIST نسخه جدیدی از VMLU را معرفی کردند.

با هوشمندتر شدن روزافزون مدل‌های هوش مصنوعی، VMLU برای ارزیابی شایستگی‌های پیچیده‌تر ارتقا یافته است. به طور خاص، مجموعه استانداردهای توسعه‌یافته، سه مهارت اصلی یک LLM مدرن را ارزیابی می‌کند، از جمله:

درک مطلب (ViSQuAD): ۳۳۱۰ سوال، توانایی درک عمیق متن و پاسخگویی به سوالات پیچیده را بر اساس ویژگی‌های خاص زبان و بافت ویتنامی ارزیابی می‌کند.

استدلال (ViDrop): 3090 سوال، توانایی‌های استدلال منطقی LLM را از طریق وظایفی مانند مقایسه، شمارش و محاسبات ریاضی به چالش می‌کشد.

تعامل (ViDialog): ۲۱۰ گفتگو، انسجام، درک زمینه‌ای و کاربرد دانش چندرشته‌ای (تاریخ، جغرافیا، منطق) را در گفتگو ارزیابی می‌کند.

نکته برجسته مجموعه جدید استانداردها، روش ارزیابی پیشرفته است که انواع مختلفی از سوالات چند گزینه‌ای و تشریحی را با الزامات استدلال گام به گام ترکیب می‌کند. به طور خاص، VMLU از روش "LLM به عنوان قاضی" (استفاده از LLM برای ارزیابی LLM) استفاده می‌کند - روندی که توسط جامعه جهانی هوش مصنوعی برای دستیابی به نتایج عینی‌تر و در مقیاس بزرگ اعمال می‌شود.

نسخه ۲۰۲۳ با ۱۰۸۸۰ سوال چندگزینه‌ای، شامل ۵۸ موضوع، که به سطوح مختلف تقسیم شده‌اند، بر ارزیابی دانش بنیادی LLM تمرکز دارد. در همین حال، مجموعه جدید استانداردها یک قدم فراتر می‌رود و توانایی استدلال و تعامل LLM را در زمینه‌های زندگی واقعی می‌سنجد . این ارتقا نه تنها به توسعه‌دهندگان کمک می‌کند تا مدل‌ها را جامع‌تر ارزیابی کنند، بلکه LLM را به ایجاد ارزش‌های مفید برای کاربران نهایی نیز ترغیب می‌کند.

مجموعه گسترده‌تری از معیارها، سه مهارت اصلی یک LLM مدرن را ارزیابی می‌کند.

دکتر چائو تان دوک، مدیر تحقیق و توسعه هوش مصنوعی در Zalo AI، گفت: «در حال حاضر صدها معیار مختلف در جهان برای ارزیابی قابلیت‌های مدل‌های زبانی بزرگ وجود دارد. با این حال، تعداد معیارهای خاص برای زبان ویتنامی بسیار محدود است. با راه‌اندازی معیارها در سال‌های ۲۰۲۳ و ۲۰۲۵، امیدواریم جنبه‌های ارزیابی را متنوع کنیم.»

مجموعه جدید استانداردها در وب‌سایت VMLU به آدرس https://vmlu.ai/ منتشر شده است تا افراد و گروه‌های تحقیقاتی بتوانند مدل‌های خود را ارزیابی کنند.

مجموعه جدید استانداردها در وب‌سایت VMLU منتشر شده است.

با همکاری متخصصان برجسته در Zalo AI و موسسه JAIST، VMLU به تحقیق و توسعه استانداردهای ارزیابی متنوع‌تر از نظر زمینه‌ها و دشواری ادامه خواهد داد. در آینده، VMLU همچنین قصد دارد استانداردهای ارزیابی ایمنی و یکپارچگی را توسعه دهد و اطمینان حاصل کند که مدل‌های LLM با مسئولیت‌پذیری توسعه می‌یابند.

منبع: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html