Interface do v7, teclado com IA integrada. Foto: NVCC . |
Em entrevista ao Tri Thuc - Znews , Tri Duc (nascido em 2003) falou sobre a ideia de aplicar inteligência artificial para mudar a forma como o vietnamita é digitado. A ferramenta de digitação v7, um projeto de estudante seu, agora se tornou um artigo científico e foi aceita na IJCAI 2025, uma conferência de prestígio sobre IA.
Apesar de ser popular há décadas, a digitação por Telex ou VNI ainda apresenta muitas limitações na experiência do usuário. Portanto, o v7 foi criado para ser uma ferramenta de predição leve, que ajuda a reduzir o tempo de digitação em vietnamita graças à integração de IA.
Paixão por línguas e tecnologia
Seu amor por idiomas e tecnologia o levou a se formar em Inteligência Artificial Aplicada na Universidade de Tecnologia da Cidade de Ho Chi Minh.
Durante seus estudos, ele se envolveu em projetos como um modelo linguístico abrangente (LLM) para vietnamita, um software para traduzir línguas de minorias étnicas e um chatbot para auxiliar em processos de admissão. "Essas experiências me ajudaram a acumular uma base sólida de conhecimento, nutrir minha paixão e o desejo de aplicar IA para criar produtos úteis para a comunidade", compartilhou.
Tri Duc quer agregar valor à vida real aplicando IA. Foto: NVCC. |
Além disso, com sua formação em mandarim e cantonês, Duc reconheceu a correlação do pinyin/jyutping com a ortografia vietnamita. Esse fator também permite perceber que, em contraste com a complexidade dos hieróglifos, o sistema de digitação pinyin chinês exige apenas a digitação de “yn” para obter o nome do nosso país em caracteres chineses. Já o Telex ou VNI requerem 10 teclas para obter a palavra “Vietnã”.
Por meio de suas observações, Duc percebeu que, ao se comunicarem rapidamente, os usuários frequentemente abreviam, mantendo a primeira consoante, como "hs" para "estudante". "Se os humanos conseguem entender facilmente esse estilo de escrita, a IA pode compreendê-lo completamente se treinada com os dados corretos", disse ele sobre as circunstâncias que deram origem à ideia.
Em vez de ter que digitar o caractere completo e depois adicionar acentos ao usar ferramentas de digitação tradicionais como Telex ou VNI, que seguem o mecanismo de adição, a versão 7 usa IA para sugerir a palavra que você deseja escrever. A tecnologia prevê com precisão a palavra completa com o menor número de teclas possível.
Na estrutura ortográfica vietnamita, uma palavra é composta por consoante inicial, rima e tom. Por exemplo, a palavra “Nguyen” é composta por “ng”, “uyen” e um tom descendente. Com base nesse princípio, o mecanismo de digitação v7 foi desenvolvido para prever palavras completas utilizando apenas a consoante inicial e o tom, o que ajuda a reduzir significativamente o número de toques no teclado, mantendo a precisão.
O desafio de ensinar vietnamita para IA
Segundo Duc, o maior desafio é ensinar a IA a "entender" vietnamita para servir a essa ferramenta de digitação. Ele testou muitos modelos antes de escolher o GPT-2 como base, com arquitetura Transformers para uma boa compreensão do contexto e previsão precisa de palavras.
Após escolher a arquitetura subjacente, Duc substituiu completamente o Tokenizador (codificador de vocabulário) por um vocabulário vietnamita criado por ele mesmo. O engenheiro filtrou todas as palavras vietnamitas válidas e com grafia correta para garantir um processamento abrangente, prevendo qualquer palavra que o usuário quisesse escrever.
Outro desafio reside em equilibrar o desempenho preditivo e a velocidade de resposta, garantindo que o modelo possa ser executado em tempo real tanto em computadores quanto em celulares, mas ainda seja poderoso o suficiente para fazer as melhores previsões. Após 2 meses de testes contínuos, a versão atual apresenta corretamente quase 70% das palavras digitadas pelos usuários, com uma latência de apenas 0,03 segundos.
Em relação ao método de entrada do teclado, de acordo com diversos estudos consultados por Duc, incluindo os linguistas Cao Xuan Hao e Henri Maspero, o vietnamita possui não apenas 6, mas 8 tons. Para aproveitar essa característica, o v7 utiliza um sistema de 8 tons em vez dos 6 usuais (incluindo um tom bemol e 5 tons acentuados: sustenido, bemol, interrogativo, descendente e forte). Nesse teclado, ao digitar "v7", o modelo sugerirá a palavra "Viet". Essa também é a ideia por trás do nome do produto.
Após compartilhar a versão 7 em sua rede social, Duc disse que ficou muito feliz e surpreso com a atenção, o apoio e o desejo de experimentar o modelo. "Isso me deu uma clara percepção da necessidade de uma ferramenta de digitação em vietnamita mais inteligente e rápida", afirmou.
Grupo de autores do artigo de pesquisa científica . Da esquerda para a direita: Nhat Khang, Hieu Nghia e Tri Duc. Foto: NVCC. |
Atualmente, o teclado ainda está em fase de protótipo, com o código aberto disponível no GitHub para que programadores e usuários de tecnologia possam testá-lo e contribuir. Uma versão completa do aplicativo para Windows e macOS também está sendo desenvolvida para facilitar a instalação e o uso por usuários comuns.
No futuro, a principal prioridade da versão 7 será a versão do teclado para iPhone, a fim de aprimorar a forma como o texto em vietnamita é digitado em smartphones. Além disso, o modelo terá sua precisão aprimorada por meio de treinamento com mais dados de conversas do dia a dia, ajudando a IA a compreender melhor os contextos comuns.
A trajetória de Duc contribuiu para um sopro de criatividade, acompanhando as tendências tecnológicas no contexto do Vietnã, que investe fortemente em infraestrutura de IA. Um momento que o orgulha é quando a v7 criou sua primeira frase completa. "Naquela época, um modelo pequeno, provavelmente apenas 1/10.000 do tamanho do ChatGPT atual, ainda conseguia pensar como um humano", disse Duc.
Fonte: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html






Comentário (0)