Vietnam.vn - Nền tảng quảng bá Việt Nam

Un jeune ingénieur utilise l'IA pour changer la façon dont le vietnamien est écrit

Le logiciel de saisie vietnamien intégré à l'IA est l'un des produits qui combine avec succès créativité et connaissances professionnelles, dans le but d'apporter une valeur pratique à la communauté.

ZNewsZNews14/05/2025


Interface du v7, clavier intégré à l'IA. Photo : NVCC .

Lors d'un échange avec Tri Thuc - Znews , Tri Duc (né en 2003) a évoqué l'idée d'appliquer l'intelligence artificielle pour changer la façon de saisir le vietnamien. L'outil de saisie v7, son projet étudiant, a donné lieu à un article de recherche et a été accepté à l'IJCAI 2025, une prestigieuse conférence sur l'IA.

Malgré sa popularité depuis des décennies, la saisie en télex ou en VNI présente encore de nombreuses limitations en termes d'expérience utilisateur. C'est pourquoi v7 a été conçu pour devenir un outil de prédiction léger, permettant de réduire le temps de saisie en vietnamien grâce à l'intégration de l'IA.

Passion pour les langues et la technologie

Son amour des langues et de la technologie l'a conduit à se spécialiser en intelligence artificielle appliquée à l'Université de technologie de Ho Chi Minh-Ville.

Durant ses études, il a travaillé sur des projets tels qu'un modèle linguistique à grande échelle (LLM) pour le vietnamien, un logiciel de traduction des langues des minorités ethniques ou un chatbot pour faciliter les admissions. « Ces expériences m'ont permis d'acquérir de solides connaissances et de nourrir ma passion et mon désir d'utiliser l'IA pour créer des produits utiles à la communauté », a-t-il confié.

Photo bois intégrée à l'IA 1

Tri Duc souhaite valoriser l'application de l'IA à la vie. Photo : NVCC.

De plus, fort de sa formation en mandarin et en cantonais, Duc a reconnu la corrélation entre le pinyin/jyutping et l'orthographe vietnamienne. Ce facteur permet également de constater que, contrairement à la complexité des hiéroglyphes, le système de frappe chinois pinyin ne nécessite que la saisie de « yn » pour obtenir le nom de notre pays en caractères chinois. Tandis que Telex ou VNI nécessitent dix touches pour obtenir le mot « Vietnam ».

Grâce à ses observations, Duc a constaté que, lors de communications rapides, les utilisateurs abrègent souvent en conservant la première consonne, comme « hs » pour « étudiant ». « Si les humains peuvent facilement comprendre ce style d'écriture, l'IA peut le comprendre parfaitement si elle est entraînée avec les données appropriées », a-t-il déclaré à propos des circonstances qui ont donné naissance à cette idée.

Au lieu d'écrire le caractère complet puis d'ajouter des accents avec les outils de saisie traditionnels comme Telex ou VNI, qui utilisent le mécanisme d'addition, v7 utilise l'IA pour suggérer le mot à écrire. Cette technologie prédit le mot complet avec précision, en utilisant le moins de touches possible.

Dans l'orthographe vietnamienne, un mot est composé d'une consonne initiale, d'une rime et d'un ton. Par exemple, le mot « Nguyen » est composé de « ng », « uyen » et d'un ton descendant. Partant de ce principe, le moteur de frappe v7 est conçu pour prédire les mots complets ne contenant que la consonne initiale et le ton, ce qui permet de réduire considérablement le nombre de frappes tout en préservant la précision.

Le défi d'enseigner le vietnamien à l'IA

Selon Duc, le plus grand défi consiste à apprendre à l'IA à « comprendre » le vietnamien pour servir cet outil de saisie. Il a testé de nombreux modèles avant de choisir GPT-2 comme base, avec l'architecture Transformers pour une bonne compréhension du contexte et une prédiction précise des mots.

Après avoir choisi l'architecture sous-jacente, Duc a entièrement remplacé le Tokenizer (encodeur de vocabulaire) par un vocabulaire vietnamien qu'il a lui-même créé. L'ingénieur a filtré tous les mots vietnamiens valides et correctement orthographiés afin d'assurer un traitement complet, prédisant ainsi tout mot souhaité par l'utilisateur.

Un autre défi consiste à équilibrer performances prédictives et rapidité de réponse, en veillant à ce que le modèle puisse fonctionner en temps réel sur ordinateur et téléphone, tout en restant suffisamment puissant pour réaliser les meilleures prédictions. Après deux mois de tests continus, la version actuelle affiche correctement près de 70 % des mots saisis par les utilisateurs, avec une latence de seulement 0,03 seconde.

Concernant le mode de saisie du clavier, selon de nombreuses études consultées par Duc auprès des linguistes Cao Xuan Hao et Henri Maspero, le vietnamien possède non pas 6, mais 8 tons. Pour exploiter cette particularité, le v7 utilise un système à 8 tons au lieu des 6 habituels (dont un ton plat et 5 tons accentués : dièse, bémol, interrogatif, descendant, lourd). Sur ce clavier, lorsque vous tapez « v7 », le modèle suggère le mot « Viet ». C'est d'ailleurs l'idée du nom du produit.

Après avoir partagé la version 7 sur ses réseaux sociaux, Duc s'est dit très heureux et surpris de voir que le modèle avait suscité l'intérêt, le soutien et l'envie d'essayer. « Cela m'a clairement fait comprendre la nécessité d'un outil de saisie vietnamien plus intelligent et plus rapide », a-t-il déclaré.

Photo AI 2 panneau de bois intégré

Le groupe d'auteurs de l'article de recherche scientifique . De gauche à droite : Nhat Khang, Hieu Nghia et Tri Duc. Photo : NVCC.

Actuellement, le clavier est encore au stade de prototype, son code source étant disponible en open source sur GitHub, permettant aux programmeurs et aux utilisateurs de le tester et d'y contribuer. Une version complète de l'application pour Windows et macOS est également en cours de développement, facilitant son installation et son utilisation par les utilisateurs.

À l'avenir, la priorité absolue de la v7 sera la version clavier sur iPhone, afin d'améliorer la saisie de texte vietnamien sur les smartphones. De plus, la précision du modèle sera améliorée grâce à un entraînement accru sur les données de conversation quotidiennes, ce qui permettra à l'IA de mieux comprendre les contextes courants.

Le parcours de Duc a apporté une bouffée d'air frais à sa créativité, lui permettant de suivre les tendances technologiques dans un contexte où le Vietnam investit massivement dans les infrastructures d'IA. Un moment dont il est fier est la première fois que v7 a créé une phrase complète. « C'était à l'époque où un petit modèle, probablement seulement 1/10 000 de la taille de ChatGPT aujourd'hui, pouvait encore penser comme un humain », a déclaré Duc.

Source : https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html


Comment (0)

No data
No data

Même sujet

Même catégorie

Dépensez des millions pour apprendre la composition florale et créez des liens pendant la fête de la mi-automne
Il y a une colline de fleurs violettes de Sim dans le ciel de Son La
Perdu dans la chasse aux nuages ​​à Ta Xua
La beauté de la baie d'Ha Long a été reconnue par l'UNESCO comme site du patrimoine à trois reprises.

Même auteur

Patrimoine

;

Chiffre

;

Entreprise

;

No videos available

Événements actuels

;

Système politique

;

Locale

;

Produit

;