En el contexto de la transformación digital y la transformación de las aplicaciones de inteligencia artificial en Vietnam, la tecnología OCR (Reconocimiento Óptico de Caracteres) desempeña un papel cada vez más importante en la digitalización de documentos, la automatización de procesos empresariales, el ahorro de costes y la mejora de la eficiencia administrativa. Sin embargo, dadas las características del vietnamita, con sus acentos y su escritura a mano, el problema del reconocimiento no se limita a la lectura de palabras, sino que requiere que el modelo tenga la capacidad de comprender el contexto de forma integral.
Recientemente, CMC Technology Application Institute (CMC ATI) anunció el modelo CATI-VLM (Visual Document Understanding), desarrollado por el equipo de investigación a partir de un gran almacén de datos de 5 TB, superando a muchos competidores internacionales para llegar al top 12 del mundo y al top 1 en Vietnam en las clasificaciones recién anunciadas por Robust Reading Competition (RRC) en junio de 2025 en la categoría Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) es un prestigioso concurso científico , (https://rrc.cvc.uab.es/) organizado por el Centro de Visión por Computador (CVC) de la Universitat Autònoma de Barcelona (UAB) España, un prestigioso centro de investigación en el mundo en el campo de la visión por computador.
El concurso se inició en 2011 y se celebra anualmente en el marco de la Conferencia Internacional sobre Análisis y Reconocimiento de Textos (ICDAR), uno de los foros más importantes del mundo en el campo de la visión artificial. El concurso atrae a un gran número de investigadores e ingenieros de universidades, institutos de investigación y grandes corporaciones tecnológicas como la Universidad de Tsinghua, Hyundai Motor Group, Tencent, etc. Los problemas del RRC están diseñados para promover el progreso tecnológico, estrechamente vinculados a problemas prácticos que abarcan desde la traducción y la gestión de datos empresariales hasta el análisis urbano y el procesamiento de documentos históricos.
El Dr. Dang Minh Tuan, Director de CMC ATI, comentó: «Nos complace enormemente que la capacidad de investigación del equipo de CMC se haya consolidado en un prestigioso centro de investigación global como RRC. En poco tiempo, el equipo de investigación ha alcanzado altas clasificaciones, lo que demuestra su competitividad internacional frente a grandes nombres de países desarrollados. Y lo que es más importante, esto demuestra claramente la capacidad de dominar la tecnología para resolver problemas específicos de Vietnam y de sus campos especializados».

CATI-VLM se diferencia del OCR tradicional en que no solo extrae caracteres, sino que también comprende múltiples capas de información: contenido textual, elementos no textuales (casillas de verificación, gráficos, firmas, fórmulas), diseño (estructura de página, tablas, formularios) y estilo (fuentes, resaltados, etc.). El modelo puede responder a preguntas visuales sobre imágenes de documentos, de forma similar a ChatGPT, sin necesidad de aprender formularios específicos de antemano.
En particular, en la clasificación de RRC, CATI-VLM con solo 3 mil millones de parámetros logró la mayor precisión en 4/7 conjuntos de datos, superando a muchos modelos de Big Tech como Deepseek (27 mil millones de parámetros), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) o Baidu (top 22).
El logro también demuestra un enfoque práctico, centrado en dominar la tecnología central y optimizar el modelo para adaptarlo a las condiciones de infraestructura de Vietnam en lugar de perseguir la escala de parámetros.


El Sr. Nguyen Trung Chinh, presidente del Consejo de Administración y presidente ejecutivo de CMC Technology Group, enfatizó: «Este es el resultado de más de una década de inversión constante en investigación y desarrollo tecnológico (I+D). Los grandes logros de CMC en el ámbito tecnológico internacional reafirman la estrategia de dominar la tecnología vietnamita, junto con la orientación hacia la transformación de la IA y la entrada al mercado global. Creemos que la inteligencia vietnamita es plenamente capaz de competir codo con codo con las grandes tecnológicas globales, forjando una posición destacada en el panorama tecnológico mundial».
CATI-VLM se aplicará en la cadena de productos del ecosistema C.OpenAI, incluyendo: asistente virtual CLS para revisión de documentos legales, CMC SmartDoc - plataforma de conversión de documentos digitales, sistema de gestión de conocimiento CMC KMS, sistema de informes automáticos para oficinas inteligentes y aplicaciones Agentic Documents de nueva generación.
Fuente: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Kommentar (0)