گزارش وضعیت توسعه (LLM) سال ۲۰۲۴ VMLU (پلتفرم یادگیری، ارزیابی و رتبهبندی برای LLM های زبان ویتنامی) افزایش شدیدی را در تعداد LLM هایی که بر زبان ویتنامی تمرکز دارند، نشان داده است. به طور خاص، پلتفرم VMLU تعداد ۴۵ LLM را در رتبهبندیها منتشر کرده، درخواستهای ارزیابی را از بیش از ۱۵۵ سازمان و فرد دریافت کرده و ۶۹۱ دانلود از معیارهای ارزیابی و ۳۷۲۹ ارزیابی LLM از این پلتفرم را در سال ۲۰۲۴ خلاصه کرده است.
بسیاری از سازمانهای داخلی و خارجی از VMLU استفاده میکنند، مانند VinBigData، VNPT AI، Viettel Solutions، دانشگاه فناوری - VNU-HCM، UONLP x Ontocord - دانشگاه اورگان (ایالات متحده آمریکا)، DAMO Academy - گروه علیبابا، تیمهای SDSRV - سامسونگ...
دانشگاه VMLU اولین مجموعه معیارهای ارزیابی LLM خود را در سال 2023 منتشر خواهد کرد. |
همراه با افزایش کمیت، کیفیت مدلهای LLM نیز به طور فزایندهای بهبود مییابد. اگر در گذشته، LLMها حول دانش پایه آموزش میدیدند، اکنون توسعهدهندگان بر گسترش مهارتهای بیشتری مانند درک مطلب، تبادل مکالمه یا استدلال شبه انسانی تمرکز میکنند.
در پاسخ به توسعه روزافزون مدلهای پیشرفته LLM ویتنامی، VMLU مجموعه استانداردهای جدیدی را برای ارزیابی بیشتر قابلیتهای پیچیده مدلها منتشر کرده است.
استانداردهایی که تعالی LLM را ارتقا میدهند
پیش از این، زمانی که بازار فاقد استانداردهای کیفیت بود، بسیاری از گروههای تحقیقاتی داخلی مجبور بودند ابزارهای ارزیابی داخلی خود را با استانداردهای خود بسازند. این امر ارزیابی و همچنین مقایسه کیفیت مدل با LLM های موجود در بازار را برای داشتن استراتژیهای آموزشی مناسب محدود میکرد.
برای حل این مشکل، در نوامبر ۲۰۲۳، VMLU - اولین مجموعه از استانداردهای رایج «ساخت ویتنام» - توسط تیمی از متخصصان برجسته ویتنامی مورد تحقیق قرار گرفت و به صورت رایگان در اختیار جامعه قرار گرفت.
مجموعه استاندارد ۱۰۸۸۰ سوال چندگزینهای، شامل ۵۸ موضوع که به سطوح مختلفی تقسیم شدهاند، به توسعهدهندگان کمک کرده است تا به راحتی به مجموعه دادههای ارزیابی عمومی دسترسی داشته باشند. در عین حال، از رتبهبندیهای VMLU برای مقایسه مستقیم مدلهای خود با LLM های موجود در بازار استفاده کنید.
دکتر دانگ تران تای، رئیس دپارتمان پردازش زبان طبیعی - بلوک فناوری دستیار مجازی VinBigData، که مدل ViGPT-1.6B-v1 آن در رتبهبندی مدلهای از ابتدا (LLM آموزشدیده از ابتدا) VMLU قرار دارد، گفت: «VMLU دادههای نسبتاً کامل و جامعی برای ارزیابی ظرفیت دانش LLM برای ویتنامیها دارد. VMLU نه تنها برای ارزیابی کیفیت LLM در هر مرحله از توسعه مفید است، بلکه معیاری برای اثربخشی آزمایشهای ما در طول فرآیند آموزش نیز میباشد.»
دکتر دانگ تران تای افزود: «این یک «سکوی پرش» برای ارتقای توسعه هوش مصنوعی به طور کلی و به طور خاص LLM خواهد بود، زیرا ما باید استانداردهای خوبی داشته باشیم تا پایهای برای آموزش مدلهای با کیفیت بالا داشته باشیم.»
مهندس ارشد مایکروسافت - دکتر باخ هونگ نگوین - همچنین بر مفید بودن VMLU در ارزیابی عملکرد مدلهای LLM به زبان ویتنامی و کمک به واحدهای توسعه برای درک بهتر قابلیتهای مدل تأکید کرد. علاوه بر این، دکتر باخ هونگ نگوین همچنین انتظار دارد VMLU مجموعهای از مهارتهای مفید مانند استدلال، تولید کد و خلاصهسازی متن را اضافه کند.
نسخه جدید VMLU با هدف تکمیل مدلهای LLM مرتبه بالاتر ارائه شده است.
اخیراً، VMLU همچنان به اعلام مجموعهای جدید از استانداردها ادامه میدهد که تواناییهای استدلال و تعامل LLM را ارزیابی میکند. این مجموعه گسترده از استانداردها، 3 مهارت اصلی یک LLM مدرن را ارزیابی میکند، از جمله:
درک مطلب (ViSQuAD) : ۳۳۱۰ سوال، توانایی درک عمیق متن و پاسخگویی به سوالات پیچیده را بر اساس ویژگیهای خاص زبان و بافت ویتنامی ارزیابی میکند.
استدلال (ViDrop) : 3090 سوال، تواناییهای استدلال منطقی LLM را از طریق وظایفی مانند مقایسه، شمارش و محاسبات ریاضی به چالش میکشد.
تعامل (ViDialog) : ۲۱۰ دیالوگ، انسجام، توانایی درک زمینه و بهکارگیری دانش چندرشتهای (تاریخ، جغرافیا، منطق) در گفتگو را ارزیابی میکند.
این ارتقا نه تنها به توسعهدهندگان کمک میکند تا مدلها را جامعتر ارزیابی کنند، بلکه LLM را نیز به ایجاد ارزشهای مفید برای کاربران نهایی ترغیب میکند.
استانداردهای جدید VMLU در سال 2025 منتشر خواهد شد. |
دکتر چائو تان دوک، مدیر تحقیق و توسعه هوش مصنوعی در Zalo AI - سازمانی که VMLU را توسعه داده است، گفت: «در حال حاضر صدها استاندارد مختلف در جهان برای ارزیابی ظرفیت مدلهای زبانی بزرگ وجود دارد. با این حال، تعداد استانداردهای ارزیابی مخصوص زبان ویتنامی بسیار محدود است. با راهاندازی استانداردها در سالهای ۲۰۲۳ و ۲۰۲۵، امیدواریم جنبههای ارزیابی را متنوع کنیم.»
مجموعه جدید استانداردها در وبسایت VMLU به آدرس https://vmlu.ai/ منتشر شده است تا افراد و گروههای تحقیقاتی بتوانند مدلهای خود را ارزیابی کنند.
مجموعه جدید استانداردها در وبسایت VMLU بهروزرسانی شده است. |
VMLU بستری برای ارزیابی و رتبهبندی مدلهای LLM ویتنامی است که توسط Zalo AI با همکاری موسسه پیشرفته علوم و فناوری ژاپن (JAIST) ساخته شده و از نوامبر 2023 به صورت رایگان در اختیار جامعه قرار گرفته است. VMLU با تلاش برای همراهی با جامعه هوش مصنوعی ویتنام، در ارتقای توانایی مردم ویتنام در تسلط بر فناوریهای جدید مشارکت میکند. از این طریق، با جهتگیری نوآورانه در علم، فناوری، نوآوری و تحول دیجیتال ملی، به دوران توسعه فناوری کشور کمک میکند.
منبع: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html
نظر (0)