La traduction automatique est l'une des applications les plus réussies de l'intelligence artificielle dans le traitement du langage naturel. Les systèmes de traduction automatique de haute qualité tels que Google Translate ou Microsoft Bing Translator nécessitent des ensembles de données bilingues à grande échelle, pouvant contenir jusqu'à des millions de paires de phrases, pour entraîner le modèle.
Cependant, de nombreuses langues dans le monde manquent de ressources. Il est donc urgent et difficile de mettre en place un modèle de traduction automatique efficace pour les langues pauvres en ressources, notamment celles d'Asie du Sud-Est.
Récemment, l'Institut des technologies de l'information (Académie vietnamienne des sciences et technologies) a étudié et maîtrisé la technologie de traduction automatique la plus avancée. Cette unité a également développé avec succès un système de traduction multilingue entre le vietnamien et des langues régionales comme le laotien, le khmer, le thaï, le malais et l'indonésien.
Selon le développeur, des langues comme le laotien, le thaï et le khmer posent d'énormes défis lors de la création de modèles de traduction automatique. Cette difficulté provient non seulement de la rareté des données bilingues, mais aussi de la richesse morphologique de ces langues, de leur manque de segmentation des mots et des phrases, et de leur polysémie.
Le modèle d'IA développé par l'Institut des technologies de l'information a « appris » à s'adapter à toutes les spécificités des langues mentionnées ci-dessus. Le logiciel permet ainsi d'ajouter rapidement d'autres langues si nécessaire, avec une qualité de traduction équivalente à celle des produits étrangers avancés.
La particularité de ce logiciel de traduction multilingue est qu'il fonctionne indépendamment, stocke les données localement et n'utilise pas l'API d'autres fournisseurs de services. Cela garantit la sécurité, la sûreté et l'absence de fuite d'informations.
L'un des problèmes des systèmes de traduction comme Google Traduction ou Bing Translator réside dans leur adaptabilité à un domaine spécifique. Autrement dit, ils peuvent traduire efficacement dans des domaines linguistiques généraux et populaires destinés au grand public, mais leur qualité est médiocre dans des domaines linguistiques spécialisés comme la médecine , le droit, la sécurité, etc.
Pour surmonter les lacunes mentionnées ci-dessus, l’équipe de recherche de l’Institut des technologies de l’information a développé un système de traduction centré sur le vietnamien, capable d’effectuer une traduction bidirectionnelle dans des langues pauvres en ressources avec une bonne qualité.
Plus précisément, ce logiciel offre une qualité équivalente, voire supérieure, à celle de Google Traduction pour un même texte. De plus, il ne limite pas la longueur du texte.
Au cours de la période 2022-2023, le système se concentre sur le déploiement de techniques de grands modèles linguistiques (LLM), en donnant la priorité aux paires de langues suivantes : vietnamien - khmer, vietnamien - lao, vietnamien - thaï, vietnamien - malais et vietnamien - indonésien.
Avec l'anglais (une ressource de données très abondante et un atout majeur de Google), le logiciel de l'Institut des technologies de l'information assure une qualité presque équivalente à celle de Google Traduction. Le système est notamment capable de s'adapter à des domaines linguistiques spécialisés tels que la médecine, le droit, etc., en fonction des besoins spécifiques des partenaires.
Ce système a été développé par l'équipe de recherche elle-même, sur la base de l'infrastructure technique qui prend en charge le stockage de données linguistiques volumineuses et la plus forte capacité de supercalcul d'intelligence artificielle/apprentissage automatique (IA/ML) au Vietnam.
L'Institut des technologies de l'information maîtrise parfaitement les technologies concernées. Par conséquent, cette unité peut facilement étendre ses applications à de nouvelles langues cibles, notamment les langues des minorités ethniques du Vietnam (souvent très pauvres en ressources de données), comme le muong, le thaï, etc., et, si nécessaire, à des langues étrangères populaires comme le chinois, le français et le russe.
Ce logiciel de traduction multilingue Made in Vietnam devrait être la solution au problème d’accès à l’information pour les minorités ethniques.
Source
Comment (0)