Yapay zeka modelleri, karmaşık yetenekleri derinlemesine değerlendiren bir dizi standarda ihtiyaç duyar

VMLU (Vietnamca Dil Yüksek Lisans Programları için Öğrenme, Değerlendirme ve Sıralama Platformu) 2024 Gelişim Durumu Raporu (LLM), Vietnamca'ya odaklanan LLM programlarının sayısında keskin bir artış olduğunu göstermiştir. VMLU platformu, sıralamalarda 45 LLM programı yayınlamış, 155'ten fazla kuruluş ve kişiden değerlendirme talebi almış ve 2024 yılında platformdan 691 değerlendirme kriteri indirilmiş ve 3.729 LLM değerlendirmesi yapılmıştır.

VinBigData, VNPT AI, Viettel Solutions, Teknoloji Üniversitesi - VNU-HCM, UONLP x Ontocord - Oregon Üniversitesi (ABD), DAMO Academy - Alibaba Group, SDSRV ekipleri - Samsung gibi birçok yerli ve yabancı kuruluş VMLU'yu kullanıyor.

VMLU İngilizce 1

VMLU, 2023 yılında ilk LLM değerlendirme kriterlerini uygulamaya koyacak.

LLM modellerinin niceliksel artışına paralel olarak, kaliteleri de giderek artmaktadır. Geçmişte LLM'ler temel bilgiler etrafında eğitilirken, artık geliştiriciler okuma anlama, karşılıklı konuşma veya insan benzeri akıl yürütme gibi daha fazla beceri geliştirmeye odaklanmaktadır.

Gelişmiş Vietnam LLM modellerinin giderek daha güçlü bir şekilde geliştirilmesine yanıt olarak VMLU, modellerin karmaşık yeteneklerini daha ileri düzeyde değerlendirmek için yeni standart setleri yayınladı.

LLM mükemmelliğini destekleyen standartlar

Daha önce, piyasada kalite standartlarının eksikliği nedeniyle, birçok yerli araştırma grubu kendi standartlarını içeren kendi iç değerlendirme araçlarını oluşturmak zorunda kalmıştı. Bu durum, uygun eğitim stratejilerine sahip olmak için model kalitesinin piyasadaki mevcut LLM'lerle karşılaştırılmasını ve değerlendirilmesini kısıtlıyordu.

Bu sorunu çözmek için Kasım 2023'te, önde gelen Vietnamlı uzmanlardan oluşan bir ekip tarafından ilk ortak "Vietnam'da Üret" standartları seti olan VMLU araştırıldı ve topluma ücretsiz olarak sunuldu.

58 konuyu kapsayan ve birçok seviyeye ayrılmış 10.880 çoktan seçmeli sorudan oluşan standart set, geliştiricilerin genel değerlendirme veri setlerine kolayca erişmelerine yardımcı olmuştur. Aynı zamanda, VMLU'nun sıralamalarından yararlanarak modellerinizi piyasadaki mevcut LLM programlarıyla doğrudan karşılaştırabilirsiniz.

ViGPT-1.6B-v1 modeli, VMLU'nun sıfırdan eğitilmiş LLM modelleri sıralamasında yer alan VinBigData Sanal Asistan Teknolojisi Bloğu Doğal Dil İşleme Bölümü Başkanı Dr. Dang Tran Thai, şunları söyledi: "VMLU, Vietnamca için LLM'nin bilgi kapasitesini değerlendirmek için nispeten eksiksiz ve kapsamlı verilere sahip. VMLU, yalnızca her geliştirme aşamasında LLM kalitesini değerlendirmek için değil, aynı zamanda eğitim sürecindeki deneylerimizin etkinliğinin de bir ölçüsü."

Dr. Dang Tran Thai, "Bu, genel olarak yapay zekanın ve özel olarak da LLM'nin gelişimini teşvik etmek için bir 'sıçrama tahtası' olacak, çünkü yüksek kaliteli modeller yetiştirmek için bir temele sahip olmamız için iyi standartlara sahip olmalıyız" diye ekledi.

Microsoft Baş Mühendisi Dr. Bach Hung Nguyen, VMLU'nun Vietnamca LLM modellerinin performansını değerlendirmede faydalı olduğunu ve geliştirme birimlerinin modelin yeteneklerini daha iyi anlamalarına yardımcı olduğunu belirtti. Dr. Bach Hung Nguyen ayrıca, VMLU'nun muhakeme, kod oluşturma ve metin özetleme gibi bir dizi faydalı beceri kazandıracağını da düşünüyor.

VMLU'nun yeni sürümü, daha yüksek düzeyli LLM modellerini mükemmelleştirmeyi amaçlıyor

VMLU, son zamanlarda LLM'nin muhakeme ve etkileşim becerilerini değerlendiren yeni bir standartlar seti duyurmaya devam ediyor. Genişletilmiş standartlar seti, modern bir LLM'nin 3 temel becerisini değerlendiriyor:

Okuma Anlama (ViSQuAD) : 3.310 soru, metni derinlemesine anlama ve Vietnam dilinin ve bağlamının belirli özelliklerine dayalı karmaşık soruları ele alma becerisini değerlendirir.

Muhakeme (ViDrop) : 3.090 soru, karşılaştırma, sayma ve aritmetik hesaplamalar gibi görevlerle LLM'nin mantıksal muhakeme yeteneklerini zorlar.

Etkileşim (ViDialog) : 210 diyalog, tutarlılığı, bağlamı anlama yeteneğini ve diyalogda çok disiplinli bilgiyi (tarih, coğrafya, mantık) uygulama becerisini değerlendirir.

Bu yükseltme, geliştiricilerin modelleri daha kapsamlı bir şekilde değerlendirmesine yardımcı olmakla kalmıyor, aynı zamanda LLM'nin son kullanıcılar için faydalı değerler oluşturmasını da teşvik ediyor.

VMLU kardeş 2

Yeni VMLU standartları 2025 yılında yayınlanacak.

VMLU'yu geliştiren kuruluş olan Zalo AI'nın Yapay Zeka Araştırma ve Geliştirme Direktörü Dr. Chau Thanh Duc şunları söyledi: "Şu anda dünyada büyük dil modellerinin kapasitesini değerlendirmek için yüzlerce farklı standart mevcut. Ancak, Vietnamca'ya özel değerlendirme standartlarının sayısı oldukça sınırlı. Standartların 2023 ve 2025'te kullanıma sunulmasıyla değerlendirme alanlarını çeşitlendirmeyi umuyoruz."

Yeni standartlar seti, bireylerin ve araştırma gruplarının modellerini değerlendirebilmeleri için VMLU web sitesi https://vmlu.ai/ adresinde yayınlanmıştır.

VMLU kardeş 3

Yeni standartlar seti VMLU web sitesinde güncellendi.

VMLU, Zalo AI tarafından Japonya İleri Bilim ve Teknoloji Enstitüsü (JAIST) iş birliğiyle oluşturulan ve Kasım 2023'ten itibaren topluluğa ücretsiz olarak sunulan Vietnamca LLM modellerini değerlendirmek ve sıralamak için bir platformdur. VMLU, Vietnam AI topluluğuna eşlik etme çabasıyla, Vietnam halkının yeni teknolojilere hakim olma becerisini geliştirmeye katkıda bulunmaktadır. Böylece, bilim, teknoloji, inovasyon ve ulusal dijital dönüşüm alanlarında çığır açan bir yönelimle ülkenin teknolojik gelişim çağına katkıda bulunmaktadır.

Kaynak: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html