Clasificación de RRC en la categoría DocVQA, junio de 2025.
En medio de la rápida transformación digital y la adopción de la inteligencia artificial en Vietnam, la tecnología OCR (Reconocimiento Óptico de Caracteres) desempeña un papel cada vez más importante en la digitalización de documentos, la automatización de procesos empresariales, el ahorro de costes y la mejora de la eficiencia de la gestión. Sin embargo, dadas las características únicas del idioma vietnamita, incluidos sus acentos y la caligrafía, el problema del reconocimiento va más allá de la simple lectura de caracteres; requiere un modelo capaz de comprender el contexto de forma integral.
Recientemente, el Instituto de Tecnología Aplicada CMC (CMC ATI) anunció que el modelo CATI-VLM (Visual Document Understanding), desarrollado por su equipo de investigación a partir de un gran almacén de datos de 5 TB, superó a muchos competidores internacionales para alcanzar el puesto número 12 a nivel mundial y el número 1 en Vietnam en la clasificación publicada por Robust Reading Competition (RRC) en junio de 2025 en la categoría de Respuesta Visual a Preguntas sobre Documentos (DocVQA).
El Robust Reading Competition (RRC) es un prestigioso concurso científico (https://rrc.cvc.uab.es/) organizado por el Computer Vision Centre (CVC) de la Universidad Autónoma de Barcelona (UAB), España, una institución de investigación de renombre mundial en el campo de la visión por computadora.
Iniciada en 2011, la competición se celebra anualmente en el marco de la Conferencia Internacional sobre Análisis y Reconocimiento de Texto (ICDAR), uno de los foros líderes a nivel mundial en el campo de la visión artificial. La competición atrae a numerosos investigadores e ingenieros de universidades, institutos de investigación y grandes empresas tecnológicas como la Universidad de Tsinghua, Hyundai Motor Group y Tencent. Los problemas de RRC están diseñados para impulsar el progreso tecnológico y están estrechamente vinculados a problemas prácticos que abarcan desde la traducción y la gestión de datos empresariales hasta el análisis urbano y el procesamiento de documentos históricos.
El Dr. Dang Minh Tuan, director de CMC ATI, comentó: «Nos complace que las capacidades de investigación del equipo de CMC hayan sido reconocidas en una prestigiosa competencia global como RRC. En poco tiempo, el equipo de investigación ha alcanzado una alta clasificación, demostrando su competitividad internacional frente a importantes instituciones de países desarrollados. Y lo que es más importante, esto evidencia nuestra capacidad para dominar la tecnología y resolver problemas específicos relacionados con el idioma vietnamita y campos especializados en Vietnam».
Dr. Dang Minh Tuan, Director de CMC ATI.
CATI-VLM se diferencia del OCR tradicional en que no solo extrae caracteres, sino que también comprende múltiples niveles de información: contenido textual, elementos no textuales (casillas de verificación, gráficos, firmas, fórmulas), diseño (estructura de página, tablas, formularios) y estilo (fuentes, resaltado, etc.). El modelo puede responder preguntas visuales sobre imágenes de documentos, de forma similar a ChatGPT, sin necesidad de aprender previamente cada formulario específico.
Cabe destacar que, en la clasificación RRC, CATI-VLM, con tan solo 3.000 millones de parámetros, logró la mayor precisión en 4 de los 7 conjuntos de datos, superando a muchos modelos de grandes empresas tecnológicas como Deepseek (27.000 millones de parámetros), GPT-4 Vision Turbo + Amazon Textract OCR (entre los 34 mejores) y Baidu (entre los 22 mejores).
Este logro también demuestra un enfoque práctico, centrado en dominar las tecnologías básicas y optimizar los modelos para adaptarlos a las condiciones de la infraestructura de Vietnam, en lugar de perseguir la escalabilidad y los parámetros.
Ejemplo de formulario de solicitud de admisión universitaria
El texto se ha identificado a partir de la letra manuscrita de la imagen superior.
El Sr. Nguyen Trung Chinh, Presidente del Consejo de Administración y Presidente Ejecutivo de CMC Technology Group, destacó: «Este es el resultado de más de una década de inversión constante en investigación y desarrollo (I+D) de tecnología. Los altos logros de CMC en el ámbito tecnológico internacional reafirman nuestra estrategia de dominio de la tecnología vietnamita, junto con nuestra orientación hacia la transformación mediante IA y la expansión al mercado global. Creemos que la inteligencia vietnamita es plenamente capaz de competir con las grandes tecnológicas globales, consolidándose así en el panorama tecnológico mundial».
CATI-VLM se aplicará en el ecosistema de productos de C.OpenAI, que incluye: el asistente virtual CLS para la revisión de documentos legales, CMC SmartDoc, una plataforma de transformación digital de documentos, el sistema de gestión del conocimiento CMC KMS, un sistema de informes automatizado para oficinas inteligentes y aplicaciones de documentos agentes de próxima generación.
QUANG HUY
Fuente: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Kommentar (0)