Ανακοίνωση των κριτηρίων αξιολόγησης για τη συλλογιστική και την αλληλεπίδραση του Βιετναμέζικου LLM

Το Zalo AI και το Japan Advanced Institute of Science and Technology (JAIST) παρουσιάζουν μια νέα έκδοση του VMLU, προωθώντας την κοινότητα Τεχνητής Νοημοσύνης του Βιετνάμ στην τελειοποίηση μοντέλων LLM υψηλού επιπέδου.

ZNews•01/10/2025

Το VMLU (Vietnam Multitask Language Understanding - Κατανόηση Γλώσσας Πολυδιεργασίας Βιετναμέζικου Τύπου), που εισήχθη για πρώτη φορά το 2023, έχει γίνει ένα πρωτοποριακό πρότυπο «Make in Vietnam», παρακινώντας πολλές εγχώριες ερευνητικές ομάδες να βελτιώσουν την ποιότητα των βιετναμέζικων μοντέλων μεγάλης γλώσσας (LLM).

Σύμφωνα με στατιστικά στοιχεία, το 2024, το VMLU ανακοίνωσε 45 LLM στις κατατάξεις, έλαβε αιτήματα αξιολόγησης από περισσότερους από 155 οργανισμούς και άτομα, συνόψισε 691 λήψεις του συνόλου κριτηρίων αξιολόγησης και 3.729 αξιολογήσεις LLM από την πλατφόρμα. Τα πρότυπα που έχουν καθοριστεί χρησιμοποιούνται από πολλούς εγχώριους και ξένους οργανισμούς όπως VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Η Zalo AI και το Ινστιτούτο JAIST παρουσιάζουν τη νέα έκδοση του VMLU.

Καθώς τα μοντέλα Τεχνητής Νοημοσύνης γίνονται ολοένα και πιο έξυπνα, το VMLU έχει αναβαθμιστεί για να αξιολογεί πιο σύνθετες ικανότητες. Συγκεκριμένα, το διευρυμένο σύνολο προτύπων αξιολογεί τρεις βασικές δεξιότητες ενός σύγχρονου LLM, όπως:

Κατανόηση Κειμένου (ViSQuAD): 3.310 ερωτήσεις αξιολογούν την ικανότητα κατανόησης κειμένου σε βάθος και χειρισμού σύνθετων ερωτήσεων με βάση τα συγκεκριμένα χαρακτηριστικά της βιετναμέζικης γλώσσας και του πλαισίου.

Συλλογιστική (ViDrop): 3.090 ερωτήσεις αμφισβητούν τις ικανότητες λογικής συλλογιστικής του LLM μέσω ασκήσεων όπως η σύγκριση, η καταμέτρηση και οι αριθμητικοί υπολογισμοί.

Αλληλεπίδραση (ViDialog): 210 διάλογοι αξιολογούν τη συνοχή, την κατανόηση των συμφραζομένων και την εφαρμογή διεπιστημονικής γνώσης (ιστορία, γεωγραφία, λογική) στον διάλογο.

Το αποκορύφωμα του νέου συνόλου προτύπων είναι η προηγμένη μέθοδος αξιολόγησης, η οποία συνδυάζει μια ποικιλία μορφών, από ερωτήσεις πολλαπλής επιλογής, ανοιχτού τύπου έως απαιτήσεις συλλογισμού βήμα προς βήμα. Συγκεκριμένα, το VMLU εφαρμόζει τη μέθοδο "LLM ως κριτής" (χρησιμοποιώντας το LLM για την αξιολόγηση του LLM) - μια τάση που εφαρμόζεται από την παγκόσμια κοινότητα της Τεχνητής Νοημοσύνης για την επίτευξη πιο αντικειμενικών και μεγάλης κλίμακας αποτελεσμάτων.

Με 10.880 ερωτήσεις πολλαπλής επιλογής, που καλύπτουν 58 θέματα, χωρισμένα σε πολλαπλά επίπεδα, η έκδοση του 2023 επικεντρώθηκε στην αξιολόγηση των βασικών γνώσεων του LLM. Εν τω μεταξύ, το νέο σύνολο προτύπων προχωρά ένα βήμα παραπέρα, μετρώντας τη συλλογιστική και την ικανότητα αλληλεπίδρασης του LLM σε πραγματικά περιβάλλοντα . Αυτή η αναβάθμιση όχι μόνο βοηθά τους προγραμματιστές να αξιολογούν μοντέλα πιο ολοκληρωμένα, αλλά και προωθεί το LLM στη δημιουργία χρήσιμων αξιών για τους τελικούς χρήστες.

Το διευρυμένο σύνολο κριτηρίων αξιολογεί τις τρεις βασικές δεξιότητες ενός σύγχρονου LLM.

«Υπάρχουν σήμερα εκατοντάδες διαφορετικά σημεία αναφοράς στον κόσμο για την αξιολόγηση των δυνατοτήτων μεγάλων γλωσσικών μοντέλων. Ωστόσο, ο αριθμός των σημείων αναφοράς ειδικά για τα Βιετναμέζικα είναι πολύ περιορισμένος. Με την κυκλοφορία των σημείων αναφοράς το 2023 και το 2025, ελπίζουμε να διαφοροποιήσουμε τις πτυχές της αξιολόγησης», δήλωσε ο Δρ. Chau Thanh Duc, Διευθυντής Έρευνας και Ανάπτυξης Τεχνητής Νοημοσύνης στην Zalo AI.

Το νέο σύνολο προτύπων έχει λανσαριστεί στον ιστότοπο του VMLU https://vmlu.ai/ για άτομα και ερευνητικές ομάδες ώστε να μπορούν να αξιολογούν τα μοντέλα τους.

Το νέο σύνολο προτύπων έχει λανσαριστεί στον ιστότοπο του VMLU.

Με τη συνεργασία κορυφαίων εμπειρογνωμόνων στο Zalo AI και στο Ινστιτούτο JAIST, το VMLU θα συνεχίσει να ερευνά και να αναπτύσσει πιο ποικίλα πρότυπα αξιολόγησης όσον αφορά τους τομείς και τη δυσκολία. Στο μέλλον, το VMLU στοχεύει επίσης στην ανάπτυξη προτύπων αξιολόγησης ασφάλειας και ακεραιότητας, διασφαλίζοντας ότι τα μοντέλα LLM αναπτύσσονται με υπευθυνότητα.

Πηγή: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html