
Classifica di RRC nella categoria DocVQA, giugno 2025.
Nel contesto della rapida trasformazione digitale e dell'adozione dell'intelligenza artificiale in Vietnam, la tecnologia OCR (riconoscimento ottico dei caratteri) sta assumendo un ruolo sempre più importante nella digitalizzazione dei documenti, nell'automazione dei processi aziendali, nel risparmio sui costi e nel miglioramento dell'efficienza gestionale. Tuttavia, date le caratteristiche peculiari della lingua vietnamita, tra cui gli accenti e la grafia, il problema del riconoscimento va oltre la semplice "lettura" dei caratteri; richiede un modello in grado di comprendere appieno il contesto.
Di recente, il CMC Institute of Applied Technology (CMC ATI) ha annunciato che il modello CATI-VLM (Visual Document Understanding), sviluppato dal suo team di ricerca a partire da un ampio data warehouse di 5 TB, ha superato numerosi concorrenti internazionali, raggiungendo la top 12 a livello globale e la top 1 in Vietnam nella classifica pubblicata da Robust Reading Competition (RRC) nel giugno 2025 nella categoria Document Visual Question Answering (DocVQA).
La Robust Reading Competition (RRC) è una prestigiosa competizione scientifica (https://rrc.cvc.uab.es/) organizzata dal Computer Vision Centre (CVC) dell'Università Autònoma de Barcelona (UAB), Spagna, un istituto di ricerca di fama mondiale nel campo della visione artificiale.
Avviata nel 2011, la competizione si svolge annualmente nell'ambito della Conferenza Internazionale sull'Analisi e il Riconoscimento del Testo (ICDAR), uno dei principali forum mondiali nel campo della visione artificiale. La competizione attrae numerosi ricercatori e ingegneri provenienti da università, istituti di ricerca e importanti aziende tecnologiche come l'Università di Tsinghua, Hyundai Motor Group e Tencent. I problemi proposti dalla RRC sono concepiti per promuovere il progresso tecnologico, strettamente legato a problematiche pratiche che spaziano dalla traduzione e dalla gestione dei dati aziendali all'analisi urbana e all'elaborazione di documenti storici.
Il dottor Dang Minh Tuan, direttore del CMC ATI, ha dichiarato: "Siamo lieti che le capacità di ricerca del team del CMC siano state confermate da una prestigiosa competizione globale come RRC. In breve tempo, il team di ricerca ha raggiunto un'ottima posizione, dimostrando la sua competitività a livello internazionale rispetto ai principali nomi dei paesi sviluppati. Ancora più importante, questo è una chiara dimostrazione della nostra capacità di padroneggiare la tecnologia per risolvere problemi specifici relativi alla lingua vietnamita e ai settori specialistici in Vietnam."

Dott. Dang Minh Tuan, Direttore della CMC ATI.
CATI-VLM si differenzia dall'OCR tradizionale in quanto non si limita a estrarre i caratteri, ma comprende anche molteplici livelli di informazione: contenuto testuale, elementi non testuali (caselle di spunta, grafici, firme, formule), layout (struttura della pagina, tabelle, moduli) e stile (caratteri, evidenziazione, ecc.). Il modello è in grado di rispondere a domande visive poste sulle immagini dei documenti, in modo simile a ChatGPT, senza la necessità di apprendere preventivamente ogni singolo modulo.
In particolare, nella classifica RRC, CATI-VLM, con soli 3 miliardi di parametri, ha raggiunto la massima precisione in 4 dei 7 set di dati, superando molti modelli delle grandi aziende tecnologiche come Deepseek (27 miliardi di parametri), GPT-4 Vision Turbo + Amazon Textract OCR (tra i primi 34) e Baidu (tra i primi 22).
Questo risultato dimostra inoltre un approccio pragmatico, incentrato sulla padronanza delle tecnologie chiave e sull'ottimizzazione dei modelli per adattarli alle condizioni infrastrutturali del Vietnam, piuttosto che sulla ricerca di parametri di scalabilità.

Esempio di modulo di domanda di ammissione all'università

Il testo è stato identificato grazie alla grafia presente nell'immagine qui sopra.
Il signor Nguyen Trung Chinh, Presidente del Consiglio di Amministrazione e Presidente Esecutivo del Gruppo Tecnologico CMC, ha sottolineato: "Questo è il risultato di oltre un decennio di investimenti costanti in ricerca e sviluppo (R&S) tecnologico. Gli elevati traguardi raggiunti da CMC nel panorama tecnologico internazionale confermano la nostra strategia di padronanza della tecnologia vietnamita, unita al nostro orientamento verso la trasformazione dell'intelligenza artificiale e l'espansione nel mercato globale. Crediamo che l'intelligenza vietnamita sia pienamente in grado di competere con le grandi aziende tecnologiche globali, conquistando una posizione di rilievo sulla mappa tecnologica mondiale."
CATI-VLM verrà applicato nell'ecosistema di prodotti C.OpenAI, tra cui: l'assistente virtuale CLS per la revisione di documenti legali, CMC SmartDoc, una piattaforma per la trasformazione digitale dei documenti, il sistema di gestione della conoscenza CMC KMS, un sistema di reporting automatizzato per uffici intelligenti, e le applicazioni di nuova generazione Agentic Documents.
QUANG HUY
Fonte: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Commento (0)