Η ερευνητική εργασία για την αύξηση της ακρίβειας των μοντέλων αναγνώρισης ομιλίας σε πραγματικό χρόνο (Streaming Automatic Speech Recognition) από τον Le Duy Khanh - μηχανικό "GenZ" της Zalo AI - θα ανακοινωθεί για πρώτη φορά στο Διεθνές Επιστημονικό Συνέδριο , που θα πραγματοποιηθεί στην Ελλάδα τον Σεπτέμβριο του 2024.
Με θέμα « Βελτίωση της Αναγνώρισης Ομιλίας μέσω Ροής με Χρονικά Μετατοπισμένη Προσοχή στα Συμφραζόμενα και Δυναμική Ορθή Μάσκα Συμφραζομένων » , η ερευνητική εργασία του μηχανικού τεχνητής νοημοσύνης της Zalo, που γεννήθηκε το 2000, πέτυχε σχεδόν τέλεια βαθμολογία - 11/12 βαθμούς, περνώντας τον αυστηρό γύρο αξιολόγησης με περισσότερες από 2.000 συμμετέχουσες εργασίες που θα παρουσιαστούν στο Συνέδριο Interspeech με τη μορφή προφορικής συνεδρίας.
« Είμαι πολύ περήφανος που το πρώτο μου επιστημονικό άρθρο αναγνωρίστηκε από ένα έγκριτο επιστημονικό συνέδριο και έχω την ευκαιρία να παρουσιάσω τα ερευνητικά επιτεύγματα του Βιετνάμ σε μεγάλες εταιρείες τεχνολογίας, ειδικούς και τη διεθνή κοινότητα », δήλωσε ο Le Duy Khanh.
Υπό την καθοδήγηση του Δρ. Chau Thanh Duc - Επικεφαλής του Τμήματος Έρευνας και Ανάπτυξης στο Zalo AI, Λέκτορα στο Πανεπιστήμιο Φυσικών Επιστημών (Εθνικό Πανεπιστήμιο της Πόλης Χο Τσι Μινχ), το ερευνητικό αυτό έργο αναμένεται να συμβάλει σημαντικά στην αναβάθμιση των μοντέλων αναγνώρισης ομιλίας, αυξάνοντας την ακρίβεια της φωνητικής υπαγόρευσης και της μετατροπής φωνής σε κείμενο στην εφαρμογή Zalo.
« Η σύνθεση της εξαιρετικά πρακτικής έρευνας του Zalo AI σε επιστημονικές εργασίες και η παρουσίασή της σε διεθνή συνέδρια κύρους είναι πολύ σημαντική. Δεν καταδεικνύει μόνο την ικανότητα των Βιετναμέζικων μηχανικών, αλλά και την επιθυμία να μοιραστούν εμπειρίες και να συμβάλουν στην ανάπτυξη της παγκόσμιας κοινότητας της Τεχνητής Νοημοσύνης», δήλωσε ο Δρ. Chau Thanh Duc.
Προηγουμένως, η Zalo ενσωμάτωσε αυτήν την έρευνα στην εφαρμογή ανταλλαγής μηνυμάτων της από τα τέλη του 2023, συμβάλλοντας στη σημαντική βελτίωση της ακρίβειας της λειτουργίας «σύνθεσης φωνητικών μηνυμάτων». Αυτή η λειτουργία επιτρέπει στους χρήστες να συντάσσουν μηνύματα φωνητικά αντί να πληκτρολογούν χειροκίνητα, εξοικονομώντας χρόνο και καθιστώντας την πιο βολική σε πολλές περιπτώσεις χρήσης. Ταυτόχρονα, η ακρίβεια αυτής της λειτουργίας έχει φτάσει το 95% στην πράξη. Το ποσοστό ανάγκης επανεπεξεργασίας κειμένου μετά τη φωνητική σύνταξη έχει μειωθεί από 6,4% σε μόλις 4,8%.
Σύμφωνα με τα στατιστικά στοιχεία του Zalo, παρόλο που η λειτουργία βρίσκεται ακόμη σε φάση δοκιμών, έχει δημιουργήσει σχεδόν 4,5 εκατομμύρια μηνύματα την ημέρα και έχει προσελκύσει περίπου 3,2 εκατομμύρια μηνιαίους χρήστες (τα δεδομένα ενημερώθηκαν τον Ιούνιο του 2024).
Από την έναρξη του πρωτοποριακού της ταξιδιού στην έρευνα για την Τεχνητή Νοημοσύνη το 2017, η Zalo ανέκαθεν πίστευε στην «ενδυνάμωση» της νεότερης γενιάς. Επί του παρόντος, έως και το 31% των εργαζομένων της Zalo ανήκουν στη γενιά GenZ. Το 2021, δύο άλλα ερευνητικά θέματα της ομάδας μηχανικών τεχνητής νοημοσύνης της Zalo που σχετίζονται με την τεχνολογία επεξεργασίας ομιλίας αναγνωρίστηκαν επίσης στο Διεθνές Συνέδριο Ασίας- Ειρηνικού για την Τεχνητή Νοημοσύνη (PRICAI 2021). Αξίζει να σημειωθεί ότι οι συγγραφείς αυτών των δύο θεμάτων είναι όλοι νέοι ερευνητές κάτω των 30 ετών.
Το Interspeech είναι ένα μακροχρόνιο, ολοκληρωμένο και αναγνωρισμένου κύρους διεθνές συνέδριο για την Επεξεργασία του Λόγου που διοργανώνεται από την Διεθνή Ένωση Επικοινωνίας Λόγου. Φέτος, το συνέδριο με θέμα «Λόγος και πέρα από αυτόν » πραγματοποιείται από την 1η έως τις 5 Σεπτεμβρίου 2024 στο νησί της Κω (Ελλάδα).






Σχόλιο (0)