O produto rapidamente gerou burburinho na comunidade científica e tecnológica vietnamita.
Escolha o caminho difícil para resolver os problemas vietnamitas
No final de 2022, o ChatGPT criou um "big bang", dando início a uma corrida para conquistar a IA artificial entre países e gigantes da tecnologia. Naquela época, a comunidade tecnológica vietnamita também estava ansiosa para desenvolver produtos vietnamitas para se tornarem autossuficientes em tecnologia, reduzindo a dependência de produtos internacionais. No entanto, nem todas as unidades têm a capacidade e a determinação para realizar esse desejo como a VinBigdata.
“A IA generativa é um problema complexo. Grandes empresas como a OpenAI ou o Google também precisam investir muitos recursos e tempo em pesquisa para criar produtos como os que vemos. Esses produtos são muito bons, mas, na verdade, os cientistas ainda não compreendem completamente seu mecanismo de operação. Quando há erros, e quais serão esses erros, poucos conseguem prever. Desenvolver um produto semelhante ao ChatGPT para vietnamitas, em menos de um ano, envolve muitos desafios. Mas optamos por "arriscar", porque se uma versão vietnamita do ChatGPT não for feita por vietnamitas, quem a fará?" - compartilhou o Professor Vu Ha Van, Diretor de Ciência da VinBigdata.
Na verdade, pouquíssimas empresas optam por construir seus próprios Modelos de Linguagem de Grande Porte do zero. Por exemplo, o GPT 3 da OpenAI tem 175 bilhões de parâmetros e foi treinado em um conjunto de dados de 45 terabytes, custando US$ 4,6 milhões. Segundo cálculos, o custo de desenvolvimento do GPT 4 pode chegar a US$ 100 milhões. "Com números tão grandes, é muito difícil encontrar uma empresa que tenha condições de investir nessa tecnologia", disse o Dr. Nguyen Kim Anh, Diretor de Produto da VinBigdata.
Para que as empresas vietnamitas tenham acesso à tecnologia de IA de nova geração, com custos e infraestrutura otimizados, a VinBigdata escolheu uma direção completamente diferente: criar um modelo de linguagem com apenas 1,6 bilhão de parâmetros, mas com capacidades equivalentes a grandes modelos de linguagem com bilhões de parâmetros. "Os resultados mostram que, com a arquitetura desenvolvida pela própria VinBigdata, é totalmente possível otimizar e acelerar o processo de treinamento do modelo de linguagem, reduzir os custos de infraestrutura (incluindo custos de treinamento e de uso), mas ainda garantir a qualidade do modelo", acrescentou o Dr. Nguyen Kim Anh.
Após resolver o problema do grande tamanho do modelo de linguagem, durante o processo de "concepção" do ViGPT, após estudar modelos estrangeiros, a equipe do VinBigdata também percebeu outro desafio: a "ilusão", vinda da natureza inerente dos modelos de probabilidade estatística.
Consequentemente, os maiores modelos de linguagem do mundo são frequentemente treinados com fontes de dados em inglês. Portanto, esse modelo não compreende e responde corretamente ao contexto e à cultura do povo vietnamita. Isso leva a uma alucinação que faz com que o grande modelo de linguagem "fabrice" respostas incorretas.
Para encontrar a solução ideal no menor tempo possível, a equipe de Processamento de Linguagem Natural (PLN) da VinBigdata foi dividida em pequenos grupos, analisando e discutindo diferentes ideias para encontrar a direção final mais adequada.
“Finalmente, decidimos desenvolver uma arquitetura diferente da maioria dos modelos de linguagem atuais e conduzir um treinamento em um conjunto de dados vietnamitas ajustados de 600 GB, para criar um “assistente virtual inteligente” capaz de entender e dar respostas de acordo com o contexto do povo vietnamita”, acrescentou o Dr. Nguyen Kim Anh.
Aspiração por um ecossistema tecnológico vietnamita
De acordo com os resultados da avaliação dos Padrões de Avaliação de Proficiência em Língua Vietnamita (VMLU), o ViGPT obteve uma pontuação média de 42,24%, ficando atrás apenas do ChatGPT (48,54%). Esse resultado permite que o ViGPT pesquise informações rapidamente e responda a perguntas sobre tópicos específicos do Vietnã.
Além dos recursos do assistente virtual, o que a equipe de desenvolvimento deseja é integrar o ViGPT a produtos familiares e cotidianos, a fim de gerar mudanças na vida dos vietnamitas. Essa é a força motriz que motiva a equipe da VinBigdata a construir um ecossistema de produtos de linguagem e voz que aplicam o ViGPT – o ecossistema "Vi" inclui: ViChat, ViVoice e o Assistente Virtual ViVi. Esses produtos podem ser usados em diversos setores, desde o automotivo, bancário e financeiro, de seguros a transportes e muitos outros.
“Ao trabalhar com tecnologia, especialmente IA, não queremos apenas conquistar sistemas interessantes e complexos, difíceis de visualizar. Queremos criar produtos tangíveis e altamente aplicáveis, onde a IA seja o agente direto que cria mudanças na vida”, afirmou o Diretor de Produto da VinBigdata.
Portanto, o desenvolvimento bem-sucedido do ViGPT é apenas o primeiro passo na jornada para levar tecnologia e dados "puramente vietnamitas" a serviço da vida de milhões de vietnamitas. Um representante da VinBigdata afirmou que esta unidade visa integrar o ViGPT à plataforma de inteligência artificial multicognitiva VinBase 2.0, a fim de fornecer soluções superiores para organizações e empresas de diversos portes e setores.
Antes do ViGPT, a equipe de especialistas e engenheiros na área de tecnologia de processamento de linguagem e fala VinBigdata deixou sua marca ao lançar o ViVi - o primeiro assistente virtual vietnamita abrangente (aplicado e implantado em carros elétricos VinFast , aplicativos Vinhomes Resident e plataforma de comércio eletrônico Vinhomes Online), dominando ao mesmo tempo completamente as tecnologias mais avançadas do mundo, como Biometria de Voz ou Clonagem de Voz.
Todas essas tecnologias são desenvolvidas com base em um banco de dados de 3.500 terabytes, com foco principal em dados específicos do Vietnã, coletados, analisados e refinados pela VinBigdata. O objetivo final é trazer a tecnologia mundial para a vida vietnamita, utilizando dados e sistemas de conhecimento vietnamitas.
O ViGPT é a primeira "versão vietnamita do ChatGPT" para usuários finais, desenvolvida com base no modelo de linguagem vietnamita (LLM) desenvolvido pela VinBigdata. O ViGPT possui recursos excepcionais e foi projetado para atender às necessidades dos vietnamitas, como criação de conteúdo, busca de informações e resposta a perguntas comuns típicas do Vietnã. Cadastre-se e experimente o ViGPT em: vigpt.vinbigdata.com |
Thanh Ha
Fonte
Comentário (0)