Κατάταξη RRC στην κατηγορία DocVQA 6/2025.
Στο πλαίσιο του ψηφιακού μετασχηματισμού και του μετασχηματισμού εφαρμογών τεχνητής νοημοσύνης στο Βιετνάμ, η τεχνολογία OCR (Οπτική Αναγνώριση Χαρακτήρων) παίζει ολοένα και πιο σημαντικό ρόλο στην ψηφιοποίηση εγγράφων, την αυτοματοποίηση επιχειρηματικών διαδικασιών, την εξοικονόμηση κόστους και τη βελτίωση της αποτελεσματικότητας της διαχείρισης. Ωστόσο, με τα χαρακτηριστικά των Βιετναμέζων με προφορές και γραφή, το πρόβλημα της αναγνώρισης δεν σταματά στην «ανάγνωση λέξεων», αλλά απαιτεί από το μοντέλο να έχει την ικανότητα να κατανοεί πλήρως το πλαίσιο.
Πρόσφατα, το Ινστιτούτο Τεχνολογικών Εφαρμογών CMC (CMC ATI) ανακοίνωσε το μοντέλο CATI-VLM (Visual Document Understanding - Οπτική Κατανόηση Εγγράφων) - το οποίο αναπτύχθηκε από την ερευνητική ομάδα από μια μεγάλη αποθήκη δεδομένων 5TB, ξεπερνώντας πολλούς διεθνείς ανταγωνιστές και φτάνοντας στην πρώτη 12άδα στον κόσμο και στην πρώτη 1η θέση στο Βιετνάμ στις κατατάξεις που μόλις ανακοινώθηκαν από τον Διαγωνισμό Robust Reading (RRC) τον Ιούνιο του 2025 στην κατηγορία Απαντήσεις Οπτικών Ερωτήσεων Εγγράφων (DocVQA).
Ο Διαγωνισμός Ανθεκτικού Αναγνώσματος (RRC) είναι ένας επιστημονικός διαγωνισμός υψηλού κύρους (https://rrc.cvc.uab.es/) που διοργανώνεται από το Κέντρο Υπολογιστικής Όρασης (CVC) του Αυτόνομου Πανεπιστημίου της Βαρκελώνης (UAB) Ισπανίας, ενός έγκριτου ερευνητικού κέντρου στον κόσμο στον τομέα της υπολογιστικής όρασης.
Ο διαγωνισμός ξεκίνησε το 2011 και διεξάγεται ετησίως στο πλαίσιο του Διεθνούς Συνεδρίου Ανάλυσης και Αναγνώρισης Κειμένου (ICDAR) - ενός από τα κορυφαία φόρουμ στον κόσμο στον τομέα της υπολογιστικής όρασης. Ο διαγωνισμός προσελκύει μεγάλο αριθμό ερευνητών και μηχανικών από πανεπιστήμια, ερευνητικά ιδρύματα και μεγάλες τεχνολογικές εταιρείες όπως το Πανεπιστήμιο Tsinghua, η Hyundai Motor Group, η Tencent... Τα προβλήματα του RRC έχουν σχεδιαστεί για να προωθήσουν την τεχνολογική πρόοδο, η οποία συνδέεται στενά με πρακτικά προβλήματα από τη μετάφραση, τη διαχείριση επιχειρηματικών δεδομένων έως την αστική ανάλυση και την επεξεργασία ιστορικών εγγράφων.
Ο Δρ. Dang Minh Tuan, Διευθυντής του CMC ATI, δήλωσε: «Είμαστε πολύ ικανοποιημένοι που η ερευνητική ικανότητα της ομάδας CMC έχει επιβεβαιωθεί μέσω ενός διεθνούς κύρους χώρου όπως το RRC. Σε σύντομο χρονικό διάστημα, η ερευνητική ομάδα έχει επιτύχει υψηλές κατατάξεις, αποδεικνύοντας τη διεθνή ανταγωνιστικότητά της με μεγάλα ονόματα από ανεπτυγμένες χώρες. Το πιο σημαντικό είναι ότι αυτή είναι μια σαφής απόδειξη της ικανότητας να κατακτά κανείς την τεχνολογία για την επίλυση συγκεκριμένων προβλημάτων του Βιετνάμ και εξειδικευμένων πεδίων στο Βιετνάμ».
Δρ Dang Minh Tuan, Διευθυντής της CMC ATI.
Το CATI-VLM διαφέρει από την παραδοσιακή OCR στο ότι όχι μόνο εξάγει χαρακτήρες, αλλά κατανοεί και πολλαπλά επίπεδα πληροφοριών: περιεχόμενο κειμένου, μη κειμενικά στοιχεία (πλαίσια επιλογής, πλαίσια ελέγχου, γραφήματα, υπογραφές, τύποι), διάταξη (δομή σελίδας, πίνακες, φόρμες) και στυλ (γραμματοσειρές, επισημάνσεις κ.λπ.). Το μοντέλο μπορεί να απαντήσει σε οπτικά ερωτήματα που τίθενται σε εικόνες εγγράφων, παρόμοια με το ChatGPT, χωρίς να χρειάζεται να μάθει συγκεκριμένες φόρμες εκ των προτέρων.
Αξίζει να σημειωθεί ότι στις κατατάξεις του RRC, το CATI-VLM με μόνο 3 δισεκατομμύρια παραμέτρους πέτυχε την υψηλότερη ακρίβεια σε 4/7 σύνολα δεδομένων, ξεπερνώντας πολλά μοντέλα μεγάλων τεχνολογικών εταιρειών όπως το Deepseek (27 δισεκατομμύρια παράμετροι), το GPT-4 Vision Turbo + Amazon Textract OCR (κορυφαία 34) ή το Baidu (κορυφαία 22).
Το επίτευγμα δείχνει επίσης μια πρακτική προσέγγιση, η οποία εστιάζει στην τελειοποίηση της βασικής τεχνολογίας, βελτιστοποιώντας το μοντέλο ώστε να ταιριάζει στις συνθήκες υποδομής του Βιετνάμ αντί να κυνηγάει την κλίμακα των παραμέτρων.
Δείγμα Αίτησης Εισαγωγής στο Κολλέγιο
Το κείμενο αναγνωρίστηκε από το χειρόγραφο στην παραπάνω εικόνα.
Ο κ. Nguyen Trung Chinh, Πρόεδρος του Διοικητικού Συμβουλίου, Εκτελεστικός Πρόεδρος του CMC Technology Group, τόνισε: «Αυτό είναι το αποτέλεσμα περισσότερων από μιας δεκαετίας συνεχών επενδύσεων στην τεχνολογική έρευνα και ανάπτυξη (Ε&Α). Τα υψηλά επιτεύγματα της CMC στον διεθνή τεχνολογικό χώρο επιβεβαιώνουν τη στρατηγική της τελειοποίησης της βιετναμέζικης τεχνολογίας, σε συνδυασμό με τον προσανατολισμό στον μετασχηματισμό της τεχνητής νοημοσύνης και την είσοδο στην παγκόσμια αγορά. Πιστεύουμε ότι η βιετναμέζικη νοημοσύνη είναι πλήρως ικανή να σταθεί δίπλα στις παγκόσμιες μεγάλες τεχνολογικές εταιρείες, δημιουργώντας μια αξιόλογη θέση στον παγκόσμιο τεχνολογικό χάρτη».
Το CATI-VLM θα εφαρμοστεί στην αλυσίδα προϊόντων του οικοσυστήματος C.OpenAI, συμπεριλαμβανομένων: του εικονικού βοηθού CLS για την αναθεώρηση νομικών εγγράφων, της πλατφόρμας μετατροπής ψηφιακών εγγράφων CMC SmartDoc, του συστήματος διαχείρισης γνώσεων CMC KMS, του συστήματος αυτόματης αναφοράς για έξυπνα γραφεία και των εφαρμογών Agentic Documents νέας γενιάς.
ΚΟΥΑΝΓΚ ΧΟΥΙ
Πηγή: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Σχόλιο (0)