Vietnamca LLM'de muhakeme ve etkileşim için değerlendirme kriterlerinin duyurulması

İlk olarak 2023 yılında tanıtılan VMLU (Vietnamca Çoklu Görev Dili Anlama), öncü bir “Vietnam'da Üret” standart seti haline gelerek, birçok yerli araştırma grubunu Vietnamca büyük dil modelleri (LLM) kalitesini iyileştirmeye motive etti.

İstatistiklere göre, VMLU 2024 yılında sıralamalarda 45 Hukuk Yüksek Lisansı (LLM) ilan etti, 155'ten fazla kuruluş ve kişiden değerlendirme talebi aldı, değerlendirme kriterleri setinin 691 kez indirildiğini ve platformdan 3.729 Hukuk Yüksek Lisansı (LLM) değerlendirmesinin yapıldığını duyurdu. Standart seti, VinBigData, VNPT AI, Viettel Solutions, Bilim ve Teknoloji Üniversitesi - VNU-HCM, UONLP x Ontocord - Oregon Üniversitesi (ABD), DAMO Academy - Alibaba Group, SDSRV ekipleri - Samsung gibi birçok yerli ve yabancı kuruluş tarafından kullanılmaktadır.

Zalo AI ve JAIST Enstitüsü VMLU'nun yeni sürümünü tanıttı.

Yapay zeka modelleri giderek daha akıllı hale geldikçe, VMLU daha karmaşık yetkinlikleri değerlendirecek şekilde geliştirildi. Genişletilmiş standartlar seti, modern bir LLM'nin üç temel becerisini değerlendiriyor:

Okuma Anlama (ViSQuAD): 3.310 soru, metni derinlemesine anlama ve Vietnam dilinin ve bağlamının belirli özelliklerine dayalı karmaşık soruları ele alma becerisini değerlendirir.

Muhakeme (ViDrop): 3.090 soru, karşılaştırma, sayma ve aritmetik hesaplamalar gibi görevlerle LLM'nin mantıksal muhakeme yeteneklerini zorlar.

Etkileşim (ViDialog): 210 diyalog, diyalogda tutarlılığı, bağlamsal anlayışı ve disiplinler arası bilginin (tarih, coğrafya, mantık) uygulanmasını değerlendirir.

Yeni standartlar setinin öne çıkan özelliği, çoktan seçmeli, açık uçlu sorulardan adım adım muhakeme gerekliliklerine kadar çeşitli formları birleştiren gelişmiş değerlendirme yöntemidir. VMLU özellikle, küresel yapay zeka topluluğu tarafından daha nesnel ve geniş kapsamlı sonuçlar elde etmek için uygulanan bir trend olan "hakem olarak LLM" (LLM'yi değerlendirmek için LLM'yi kullanma) yöntemini uygulamaktadır.

58 konuyu kapsayan ve birden fazla seviyeye ayrılmış 10.880 çoktan seçmeli soruyla 2023 sürümü, LLM'nin temel bilgilerini değerlendirmeye odaklanmıştır. Bu arada, yeni standartlar seti bir adım daha ileri giderek, LLM'nin gerçek yaşam bağlamlarındaki akıl yürütme ve etkileşim yeteneğini ölçmektedir . Bu güncelleme, geliştiricilerin modelleri daha kapsamlı bir şekilde değerlendirmelerine yardımcı olmakla kalmayıp, aynı zamanda LLM'nin son kullanıcılar için faydalı değerler oluşturmasını da teşvik etmektedir.

Genişletilmiş kriterler seti, modern bir LLM'nin üç temel becerisini değerlendirir.

Zalo AI Yapay Zeka Araştırma ve Geliştirme Direktörü Dr. Chau Thanh Duc, "Şu anda dünyada büyük dil modellerinin yeteneklerini değerlendirmek için yüzlerce farklı kıyaslama aracı mevcut. Ancak, özellikle Vietnamca için kıyaslama araçlarının sayısı oldukça sınırlı. 2023 ve 2025'te kıyaslama araçlarının kullanıma sunulmasıyla değerlendirme alanlarını çeşitlendirmeyi umuyoruz," dedi.

Yeni standartlar seti, bireylerin ve araştırma gruplarının modellerini değerlendirebilmeleri için VMLU web sitesi https://vmlu.ai/ adresinde yayınlanmıştır.

Yeni standartlar seti VMLU web sitesinde yayınlanmıştır.

VMLU, Zalo AI ve JAIST Enstitüsü'ndeki önde gelen uzmanların iş birliğiyle, alanlar ve zorluk seviyeleri açısından daha çeşitli değerlendirme standartları araştırmaya ve geliştirmeye devam edecektir. VMLU ayrıca, gelecekte LLM modellerinin sorumlu bir şekilde geliştirilmesini sağlayarak güvenlik ve bütünlük değerlendirme standartları geliştirmeyi hedeflemektedir.

Kaynak: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html