مدل‌های هوش مصنوعی به مجموعه‌ای از استانداردها نیاز دارند که قابلیت‌های پیچیده را عمیقاً ارزیابی کنند.

توسعه سریع مدل‌های مدرن هوش مصنوعی، نیازمند استانداردهای ارزیابی گسترده‌ای برای قابلیت‌های پیچیده است و انگیزه‌ای برای توسعه مدل‌های LLM سطح بالا ایجاد می‌کند.

ZNews•03/10/2025

گزارش وضعیت توسعه (LLM) سال ۲۰۲۴ VMLU (پلتفرم یادگیری، ارزیابی و رتبه‌بندی برای LLM های زبان ویتنامی) افزایش شدیدی را در تعداد LLM هایی که بر زبان ویتنامی تمرکز دارند، نشان داده است. به طور خاص، پلتفرم VMLU تعداد ۴۵ LLM را در رتبه‌بندی‌ها منتشر کرده، درخواست‌های ارزیابی را از بیش از ۱۵۵ سازمان و فرد دریافت کرده و ۶۹۱ دانلود از معیارهای ارزیابی و ۳۷۲۹ ارزیابی LLM از این پلتفرم را در سال ۲۰۲۴ خلاصه کرده است.

بسیاری از سازمان‌های داخلی و خارجی از VMLU استفاده می‌کنند، مانند VinBigData، VNPT AI، Viettel Solutions، دانشگاه فناوری - VNU-HCM، UONLP x Ontocord - دانشگاه اورگان (ایالات متحده آمریکا)، DAMO Academy - گروه علی‌بابا، تیم‌های SDSRV - سامسونگ...

زبان انگلیسی VMLU 1

دانشگاه VMLU اولین مجموعه معیارهای ارزیابی LLM خود را در سال 2023 منتشر خواهد کرد.

همراه با افزایش کمیت، کیفیت مدل‌های LLM نیز به طور فزاینده‌ای بهبود می‌یابد. اگر در گذشته، LLMها حول دانش پایه آموزش می‌دیدند، اکنون توسعه‌دهندگان بر گسترش مهارت‌های بیشتری مانند درک مطلب، تبادل مکالمه یا استدلال شبه انسانی تمرکز می‌کنند.

در پاسخ به توسعه روزافزون مدل‌های پیشرفته LLM ویتنامی، VMLU مجموعه استانداردهای جدیدی را برای ارزیابی بیشتر قابلیت‌های پیچیده مدل‌ها منتشر کرده است.

استانداردهایی که تعالی LLM را ارتقا می‌دهند

پیش از این، زمانی که بازار فاقد استانداردهای کیفیت بود، بسیاری از گروه‌های تحقیقاتی داخلی مجبور بودند ابزارهای ارزیابی داخلی خود را با استانداردهای خود بسازند. این امر ارزیابی و همچنین مقایسه کیفیت مدل با LLM های موجود در بازار را برای داشتن استراتژی‌های آموزشی مناسب محدود می‌کرد.

برای حل این مشکل، در نوامبر ۲۰۲۳، VMLU - اولین مجموعه از استانداردهای رایج «ساخت ویتنام» - توسط تیمی از متخصصان برجسته ویتنامی مورد تحقیق قرار گرفت و به صورت رایگان در اختیار جامعه قرار گرفت.

مجموعه استاندارد ۱۰۸۸۰ سوال چندگزینه‌ای، شامل ۵۸ موضوع که به سطوح مختلفی تقسیم شده‌اند، به توسعه‌دهندگان کمک کرده است تا به راحتی به مجموعه داده‌های ارزیابی عمومی دسترسی داشته باشند. در عین حال، از رتبه‌بندی‌های VMLU برای مقایسه مستقیم مدل‌های خود با LLM های موجود در بازار استفاده کنید.

دکتر دانگ تران تای، رئیس دپارتمان پردازش زبان طبیعی - بلوک فناوری دستیار مجازی VinBigData، که مدل ViGPT-1.6B-v1 آن در رتبه‌بندی مدل‌های از ابتدا (LLM آموزش‌دیده از ابتدا) VMLU قرار دارد، گفت: «VMLU داده‌های نسبتاً کامل و جامعی برای ارزیابی ظرفیت دانش LLM برای ویتنامی‌ها دارد. VMLU نه تنها برای ارزیابی کیفیت LLM در هر مرحله از توسعه مفید است، بلکه معیاری برای اثربخشی آزمایش‌های ما در طول فرآیند آموزش نیز می‌باشد.»

دکتر دانگ تران تای افزود: «این یک «سکوی پرش» برای ارتقای توسعه هوش مصنوعی به طور کلی و به طور خاص LLM خواهد بود، زیرا ما باید استانداردهای خوبی داشته باشیم تا پایه‌ای برای آموزش مدل‌های با کیفیت بالا داشته باشیم.»

مهندس ارشد مایکروسافت - دکتر باخ هونگ نگوین - همچنین بر مفید بودن VMLU در ارزیابی عملکرد مدل‌های LLM به زبان ویتنامی و کمک به واحدهای توسعه برای درک بهتر قابلیت‌های مدل تأکید کرد. علاوه بر این، دکتر باخ هونگ نگوین همچنین انتظار دارد VMLU مجموعه‌ای از مهارت‌های مفید مانند استدلال، تولید کد و خلاصه‌سازی متن را اضافه کند.

نسخه جدید VMLU با هدف تکمیل مدل‌های LLM مرتبه بالاتر ارائه شده است.

اخیراً، VMLU همچنان به اعلام مجموعه‌ای جدید از استانداردها ادامه می‌دهد که توانایی‌های استدلال و تعامل LLM را ارزیابی می‌کند. این مجموعه گسترده از استانداردها، 3 مهارت اصلی یک LLM مدرن را ارزیابی می‌کند، از جمله:

درک مطلب (ViSQuAD) : ۳۳۱۰ سوال، توانایی درک عمیق متن و پاسخگویی به سوالات پیچیده را بر اساس ویژگی‌های خاص زبان و بافت ویتنامی ارزیابی می‌کند.

استدلال (ViDrop) : 3090 سوال، توانایی‌های استدلال منطقی LLM را از طریق وظایفی مانند مقایسه، شمارش و محاسبات ریاضی به چالش می‌کشد.

تعامل (ViDialog) : ۲۱۰ دیالوگ، انسجام، توانایی درک زمینه و به‌کارگیری دانش چندرشته‌ای (تاریخ، جغرافیا، منطق) در گفتگو را ارزیابی می‌کند.

این ارتقا نه تنها به توسعه‌دهندگان کمک می‌کند تا مدل‌ها را جامع‌تر ارزیابی کنند، بلکه LLM را نیز به ایجاد ارزش‌های مفید برای کاربران نهایی ترغیب می‌کند.

برادر VMLU 2

استانداردهای جدید VMLU در سال 2025 منتشر خواهد شد.

دکتر چائو تان دوک، مدیر تحقیق و توسعه هوش مصنوعی در Zalo AI - سازمانی که VMLU را توسعه داده است، گفت: «در حال حاضر صدها استاندارد مختلف در جهان برای ارزیابی ظرفیت مدل‌های زبانی بزرگ وجود دارد. با این حال، تعداد استانداردهای ارزیابی مخصوص زبان ویتنامی بسیار محدود است. با راه‌اندازی استانداردها در سال‌های ۲۰۲۳ و ۲۰۲۵، امیدواریم جنبه‌های ارزیابی را متنوع کنیم.»

مجموعه جدید استانداردها در وب‌سایت VMLU به آدرس https://vmlu.ai/ منتشر شده است تا افراد و گروه‌های تحقیقاتی بتوانند مدل‌های خود را ارزیابی کنند.

برادر VMLU 3

مجموعه جدید استانداردها در وب‌سایت VMLU به‌روزرسانی شده است.

VMLU بستری برای ارزیابی و رتبه‌بندی مدل‌های LLM ویتنامی است که توسط Zalo AI با همکاری موسسه پیشرفته علوم و فناوری ژاپن (JAIST) ساخته شده و از نوامبر 2023 به صورت رایگان در اختیار جامعه قرار گرفته است. VMLU با تلاش برای همراهی با جامعه هوش مصنوعی ویتنام، در ارتقای توانایی مردم ویتنام در تسلط بر فناوری‌های جدید مشارکت می‌کند. از این طریق، با جهت‌گیری نوآورانه در علم، فناوری، نوآوری و تحول دیجیتال ملی، به دوران توسعه فناوری کشور کمک می‌کند.

منبع: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html