La transformación de la IA en Vietnam está en pleno auge, y la tecnología OCR (reconocimiento óptico de caracteres) desempeña un papel cada vez más importante en la digitalización de documentos. Foto: Ilustración.
Recientemente, el CMC Technology Application Institute (CMC ATI) anunció el modelo CATI-VLM (Visual Document Understanding) desarrollado por el equipo de investigación a partir de un gran almacén de datos de 5 TB, alcanzando el top 12 en el mundo y el top 1 en Vietnam en las clasificaciones recién anunciadas por Robust Reading Competition (RRC) en junio de 2025 en la categoría Document Visual Question Answering (DocVQA).
El Sr. Dang Minh Tuan, Director de CMC ATI, comentó: «Nos complace enormemente que la capacidad de investigación del equipo de CMC se haya consolidado en un prestigioso centro de investigación global como RRC. Nos enorgullece que, en tan poco tiempo, el equipo haya alcanzado un alto nivel, a la par de grandes nombres de países desarrollados. Y lo que es más importante, esta es una clara demostración de la capacidad de dominar la tecnología para resolver problemas específicos de Vietnam y de las áreas especializadas en Vietnam».
En el contexto de la transformación digital y la transformación de la IA que se está produciendo fuertemente en Vietnam, la tecnología OCR (reconocimiento óptico de caracteres) juega un papel cada vez más importante en la digitalización de documentos, la automatización de procesos comerciales, el ahorro de costos y la mejora de la eficiencia de la gestión.
Sin embargo, con las características del vietnamita con acentos y escritura a mano, el problema de reconocimiento no se detiene en "leer palabras", sino que requiere que el modelo tenga la capacidad de comprender el contexto de manera integral.
CATI-VLM se diferencia del OCR tradicional en que no sólo extrae caracteres, sino que también comprende múltiples capas de información: contenido de texto, elementos no textuales (casillas de verificación, casillas de verificación, gráficos, firmas, fórmulas), diseño (estructura de página, tablas, formularios) y estilo (fuentes, resaltados…).
El modelo puede responder preguntas visuales planteadas en imágenes de documentos, de forma similar a ChatGPT, sin necesidad de aprender formularios específicos de antemano.
Robust Reading Competition (RRC) es un prestigioso concurso científico , organizado por el Centro de Visión por Computador de la Universitat Autònoma de Barcelona (UAB) España, un prestigioso centro de investigación en el mundo en el campo de la visión por computador.
Iniciada en 2011, siempre acompañando a la Conferencia Internacional de Análisis y Reconocimiento de Texto ICDAR - uno de los foros más grandes del mundo sobre análisis de documentos y visión por computadora, la competencia se ha convertido en un evento importante, atrayendo a investigadores, ingenieros de prestigiosas universidades, institutos de investigación y empresas de tecnología como la Universidad de Tsinghua, Hyundai Motor Group y Tencent...
Las misiones de RRC están diseñadas para impulsar el avance tecnológico, basado en problemas prácticos que van desde la traducción y la gestión de datos empresariales hasta el análisis urbano y el procesamiento de documentos históricos.
Del trabajo a la crianza de los hijos: cómo los directores ejecutivos de tecnología utilizan la IA todos los díasDesde Jensen Huang hasta Tim Cook, los directores ejecutivos de tecnología más poderosos del mundo están aprovechando la IA en su vida cotidiana.
Fuente: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Kommentar (0)