Τα μοντέλα τεχνητής νοημοσύνης χρειάζονται ένα σύνολο προτύπων που αξιολογούν σε βάθος πολύπλοκες δυνατότητες

Η ραγδαία ανάπτυξη των σύγχρονων μοντέλων Τεχνητής Νοημοσύνης απαιτεί εκτεταμένα πρότυπα αξιολόγησης για σύνθετες δυνατότητες, δημιουργώντας ώθηση για την ανάπτυξη μοντέλων LLM υψηλού επιπέδου.

ZNews•03/10/2025

Η Έκθεση Κατάστασης Ανάπτυξης (LLM) του VMLU (Πλατφόρμα Μάθησης, Αξιολόγησης και Κατάταξης για Βιετναμέζικα Γλωσσικά Μεταπτυχιακά) για το 2024 έδειξε μια απότομη αύξηση στον αριθμό των LLM που επικεντρώνονται στα Βιετναμέζικα. Συγκεκριμένα, η πλατφόρμα VMLU δημοσίευσε 45 LLM στις κατατάξεις, έλαβε αιτήματα αξιολόγησης από περισσότερους από 155 οργανισμούς και άτομα και συνόψισε 691 λήψεις των κριτηρίων αξιολόγησης και 3.729 αξιολογήσεις LLM από την πλατφόρμα το 2024.

Πολλοί εγχώριοι και ξένοι οργανισμοί χρησιμοποιούν το VMLU όπως οι VinBigData, VNPT AI, Viettel Solutions, University of Technology - VNU-HCM, UONLP x Ontocord - University of Oregon (USA), DAMO Academy - Alibaba Group, SDSRV teams - Samsung...

Αγγλικά VMLU 1

Το VMLU θα λανσάρει το πρώτο του σύνολο κριτηρίων αξιολόγησης για το LLM το 2023.

Παράλληλα με τον πολλαπλασιασμό της ποσότητας, βελτιώνεται επίσης ολοένα και περισσότερο η ποιότητα των μοντέλων LLM. Αν στο παρελθόν, οι LLM εκπαιδεύονταν γύρω από βασικές γνώσεις, τώρα οι προγραμματιστές επικεντρώνονται στην επέκταση περισσότερων δεξιοτήτων, όπως η κατανόηση κειμένου, η ανταλλαγή συνομιλιών ή η ανθρώπινη συλλογιστική.

Ανταποκρινόμενο στην ολοένα και πιο ισχυρή ανάπτυξη προηγμένων μοντέλων LLM στο Βιετνάμ, το VMLU δημοσίευσε νέα σύνολα προτύπων για την περαιτέρω αξιολόγηση των πολύπλοκων δυνατοτήτων των μοντέλων.

Πρότυπα που προωθούν την αριστεία στο LLM

Προηγουμένως, όταν η αγορά δεν διέθετε πρότυπα ποιότητας, πολλές εγχώριες ερευνητικές ομάδες έπρεπε να δημιουργήσουν τα δικά τους εσωτερικά εργαλεία αξιολόγησης με τα δικά τους πρότυπα. Αυτό περιόριζε την αξιολόγηση καθώς και τη σύγκριση της ποιότητας του μοντέλου με τα υπάρχοντα LLM στην αγορά, ώστε να υπάρχουν κατάλληλες στρατηγικές κατάρτισης.

Για την επίλυση αυτού του προβλήματος, τον Νοέμβριο του 2023, το VMLU - το πρώτο σύνολο κοινών προτύπων "Make in Vietnam" - ερευνήθηκε από μια ομάδα κορυφαίων Βιετναμέζικων εμπειρογνωμόνων και παρασχέθηκε δωρεάν στην κοινότητα.

Το τυπικό σύνολο 10.880 ερωτήσεων πολλαπλής επιλογής, που καλύπτουν 58 θέματα, χωρισμένα σε πολλά επίπεδα, έχει βοηθήσει τους προγραμματιστές να έχουν εύκολη πρόσβαση σε γενικά σύνολα δεδομένων αξιολόγησης. Ταυτόχρονα, επωφεληθείτε από τις κατατάξεις του VMLU για να συγκρίνετε απευθείας τα μοντέλα τους με τα υπάρχοντα LLM στην αγορά.

Ο Δρ. Dang Tran Thai, Επικεφαλής του Τμήματος Επεξεργασίας Φυσικής Γλώσσας - VinBigData Virtual Assistant Technology Block, του οποίου το μοντέλο ViGPT-1.6B-v1 βρίσκεται στην κατάταξη των μοντέλων από την αρχή (LLM που εκπαιδεύτηκαν από την αρχή) του VMLU, δήλωσε: «Το VMLU διαθέτει σχετικά πλήρη και ολοκληρωμένα δεδομένα για την αξιολόγηση της γνωστικής ικανότητας του LLM για τα Βιετναμέζικα. Το VMLU δεν είναι μόνο χρήσιμο για την αξιολόγηση της ποιότητας του LLM σε κάθε στάδιο ανάπτυξης, αλλά και ως μέτρο της αποτελεσματικότητας των πειραμάτων μας κατά τη διάρκεια της διαδικασίας εκπαίδευσης».

«Αυτό θα αποτελέσει ένα «εφαλτήριο» για την προώθηση της ανάπτυξης της Τεχνητής Νοημοσύνης γενικά και του LLM ειδικότερα, επειδή πρέπει να έχουμε καλά πρότυπα, ώστε να έχουμε μια βάση για την εκπαίδευση μοντέλων υψηλής ποιότητας», πρόσθεσε ο Δρ. Ντανγκ Τραν Τάι.

Ο Δρ. Bach Hung Nguyen, Κύριος Μηχανικός της Microsoft, επιβεβαίωσε επίσης τη χρησιμότητα του VMLU στην αξιολόγηση της απόδοσης των μοντέλων LLM στα Βιετναμέζικα, βοηθώντας τις μονάδες ανάπτυξης να κατανοήσουν καλύτερα τις δυνατότητες του μοντέλου. Επιπλέον, ο Δρ. Bach Hung Nguyen αναμένει επίσης ότι το VMLU θα προσθέσει ένα σύνολο χρήσιμων δεξιοτήτων όπως η συλλογιστική, η δημιουργία κώδικα και η σύνοψη κειμένου.

Η νέα έκδοση του VMLU στοχεύει στην τελειοποίηση μοντέλων LLM υψηλότερης τάξης

Πρόσφατα, το VMLU συνεχίζει να ανακοινώνει ένα νέο σύνολο προτύπων, που αξιολογούν τις ικανότητες συλλογισμού και αλληλεπίδρασης του LLM. Το διευρυμένο σύνολο προτύπων αξιολογεί 3 βασικές δεξιότητες ενός σύγχρονου LLM, όπως:

Κατανόηση Κειμένου (ViSQuAD) : 3.310 ερωτήσεις αξιολογούν την ικανότητα κατανόησης κειμένου σε βάθος και χειρισμού σύνθετων ερωτήσεων με βάση τα συγκεκριμένα χαρακτηριστικά της βιετναμέζικης γλώσσας και του πλαισίου.

Συλλογιστική (ViDrop) : 3.090 ερωτήσεις αμφισβητούν τις ικανότητες λογικής συλλογιστικής του LLM μέσω ασκήσεων όπως η σύγκριση, η μέτρηση και οι αριθμητικοί υπολογισμοί.

Αλληλεπίδραση (ViDialog) : 210 διάλογοι αξιολογούν τη συνοχή, την ικανότητα κατανόησης του πλαισίου και την εφαρμογή διεπιστημονικών γνώσεων (ιστορία, γεωγραφία, λογική) στον διάλογο.

Αυτή η αναβάθμιση όχι μόνο βοηθά τους προγραμματιστές να αξιολογούν τα μοντέλα πιο ολοκληρωμένα, αλλά προωθεί επίσης το LLM για τη δημιουργία χρήσιμων αξιών για τους τελικούς χρήστες.

Αδελφός VMLU 2

Νέα πρότυπα VMLU θα κυκλοφορήσουν το 2025.

Ο Δρ. Chau Thanh Duc, Διευθυντής Έρευνας και Ανάπτυξης Τεχνητής Νοημοσύνης στο Zalo AI - τον οργανισμό που ανέπτυξε το VMLU, δήλωσε: «Υπάρχουν σήμερα εκατοντάδες διαφορετικά πρότυπα στον κόσμο για την αξιολόγηση της χωρητικότητας μεγάλων γλωσσικών μοντέλων. Ωστόσο, ο αριθμός των προτύπων αξιολόγησης ειδικά για τα Βιετναμέζικα είναι πολύ περιορισμένος. Με την κυκλοφορία των προτύπων το 2023 και το 2025, ελπίζουμε να διαφοροποιήσουμε τις πτυχές της αξιολόγησης».

Το νέο σύνολο προτύπων έχει λανσαριστεί στον ιστότοπο του VMLU https://vmlu.ai/ για άτομα και ερευνητικές ομάδες ώστε να μπορούν να αξιολογούν τα μοντέλα τους.

Αδελφός VMLU 3

Το νέο σύνολο προτύπων έχει ενημερωθεί στον ιστότοπο του VMLU.

Το VMLU είναι μια πλατφόρμα για την αξιολόγηση και την κατάταξη βιετναμέζικων μοντέλων LLM που κατασκευάστηκαν από την Zalo AI σε συνεργασία με το Ιαπωνικό Ινστιτούτο Προηγμένης Επιστήμης και Τεχνολογίας (JAIST) και παρέχονται δωρεάν στην κοινότητα από τον Νοέμβριο του 2023. Με την προσπάθεια να συνοδεύσει την βιετναμέζικη κοινότητα Τεχνητής Νοημοσύνης, το VMLU συμβάλλει στην προώθηση της ικανότητας του Βιετναμέζικου λαού να κατακτά τις νέες τεχνολογίες. Συμβάλλοντας έτσι στην εποχή της τεχνολογικής ανάπτυξης της χώρας με έναν πρωτοποριακό προσανατολισμό στην επιστήμη, την τεχνολογία, την καινοτομία και τον εθνικό ψηφιακό μετασχηματισμό.

Πηγή: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html