La traducción automática es una de las aplicaciones más exitosas de la inteligencia artificial en el procesamiento del lenguaje natural. Los sistemas de traducción automática de alta calidad, como Google Translate o Microsoft Bing Translator, requieren conjuntos de datos bilingües a gran escala, de hasta millones de pares de oraciones, para entrenar el modelo.

Sin embargo, muchos idiomas del mundo carecen de recursos suficientes. Por lo tanto, desarrollar un modelo de traducción automática eficaz para idiomas con recursos limitados, incluidos los del Sudeste Asiático, es urgente y un desafío.

Recientemente, el Instituto de Tecnología de la Información (Academia de Ciencia y Tecnología de Vietnam) ha investigado y dominado la tecnología de traducción automática más avanzada. Esta unidad también ha desarrollado con éxito un sistema de traducción de textos multilingüe entre vietnamita y lenguas regionales como el lao, el jemer, el tailandés, el malayo y el indonesio.

Según el desarrollador, idiomas como el laosiano, el tailandés y el jemer plantean grandes desafíos a la hora de crear modelos de traducción automática. La dificultad radica no solo en la escasez de datos bilingües, sino también en su riqueza morfológica, la falta de segmentación de palabras y oraciones, y la polisemia.

El modelo de IA desarrollado por el Instituto de Tecnología de la Información ha aprendido a adaptarse a todas las particularidades de los idiomas mencionados. A partir de ahí, el software permite añadir rápidamente otros idiomas cuando sea necesario, con una calidad de traducción equivalente a la de productos extranjeros avanzados.

Lo especial es que este software de traducción multilingüe se ejecuta por separado, almacena los datos localmente y no utiliza la API de otros proveedores de servicios. Esto garantiza la seguridad y evita la fuga de información.

W-vien-han-lam-ilustracion-ai-tri-tue-nhan-tao-1.jpg
Algunos productos científicos y tecnológicos de la Academia de Ciencia y Tecnología de Vietnam se exhiben en la Exposición Internacional de Innovación de Vietnam 2023. Foto: Trong Dat

Un problema con sistemas de traducción como Google Translate o Bing Translator es su adaptabilidad a dominios específicos. Es decir, pueden traducir bien para dominios lingüísticos generales y populares que atienden a las masas, pero su calidad de traducción es deficiente en dominios lingüísticos especializados como medicina , derecho, seguridad, etc.

Para superar las deficiencias mencionadas, el equipo de investigación del Instituto de Tecnología de la Información ha desarrollado un sistema de traducción centrado en el vietnamita, capaz de realizar traducciones bidireccionales a idiomas con escasos recursos con buena calidad.

En concreto, este software ofrece la misma o mejor calidad que Google Translate para el mismo texto. Además, no limita la longitud del texto.

En el período 2022-2023, el sistema se centra en la implementación de técnicas de modelos de lenguaje grandes (LLM), priorizando los siguientes pares de idiomas: vietnamita - jemer, vietnamita - lao, vietnamita - tailandés, vietnamita - malayo y vietnamita - indonesio.

Con el inglés como lengua extranjera (una fuente de datos muy abundante y un punto fuerte de Google), el software del Instituto de Tecnología de la Información garantiza una calidad prácticamente equivalente a la de Google Translate. En particular, el sistema se adapta a dominios lingüísticos especializados, como medicina y derecho, según las necesidades específicas de los socios.

Este sistema fue desarrollado internamente por el equipo de investigación, basado en la infraestructura técnica que soporta el almacenamiento de grandes datos lingüísticos y la capacidad de supercomputación de inteligencia artificial/aprendizaje automático (IA/ML) más sólida de Vietnam.

El Instituto de Tecnología de la Información domina a la perfección las tecnologías pertinentes. Por lo tanto, esta unidad puede ampliar fácilmente la aplicación a nuevos idiomas de destino, incluyendo lenguas de minorías étnicas en Vietnam (que suelen tener recursos de datos muy limitados), como el muong y el tailandés, así como idiomas extranjeros populares como el chino, el francés y el ruso, cuando sea necesario.

Se espera que este software de traducción multilingüe fabricado en Vietnam sea la solución al problema del acceso a la información para las minorías étnicas.

El mercado vietnamita de inteligencia artificial alcanza los 100 millones de dólares . En Vietnam, la tecnología de IA se aplica ampliamente en los servicios de atención al cliente, especialmente en el sector bancario y, próximamente, en el de seguros.