Dr. Dao Duc Minh: 'Dominar os dados vietnamitas é o primeiro passo para desenvolver e dominar a tecnologia vietnamita'
Báo Thanh niên•27/05/2024
Tendo trabalhado para uma grande organização de inteligência artificial nos EUA, por que você decidiu retornar ao Vietnã para se juntar à VinBigdata? Enquanto trabalhava nos EUA, embora eu tenha participado de muitos grandes projetos governamentais , os resultados que eu alcançava eram frequentemente apenas algumas etapas em um grande processo de processamento. Muitas vezes, devido aos procedimentos de confidencialidade muito rígidos dos projetos, eu nem sabia como as soluções que eu havia desenvolvido estavam sendo usadas. Em 2017, retornei ao Vietnã quando o país estava em fase de desenvolvimento e havia muitos problemas relacionados a big data e inteligência artificial que precisavam ser resolvidos. Aceitei o convite do Professor Vu Ha Van para juntos concretizarmos o objetivo de desenvolver soluções tecnológicas vietnamitas para servir à vida do povo vietnamita. Considero meu retorno ao Vietnã muito mais significativo porque poderei trabalhar em problemas de maior impacto.
Dr. Dao Duc Minh em um workshop
NVCC
Na estratégia de desenvolvimento da inteligência artificial, qual é o papel e a influência do big data? Os dados desempenham um papel muito importante e valioso no treinamento da inteligência artificial. Para treinar um modelo de inteligência artificial de alta qualidade, geralmente começamos treinando um grande banco de dados. Portanto, para ter inteligência artificial de qualidade, primeiro precisamos ter bons dados. Bons dados precisam atender aos padrões em termos de quantidade e escala, qualidade, diversidade e universalidade. O processo de coleta e processamento de milhares de horas de dados, desde a etapa de limpeza de dados brutos até a criação de dados da mais alta qualidade para alimentar o modelo de inteligência artificial, é muito caro e complexo. Por outro lado, para analisar big data, precisamos usar inteligência artificial para garantir a capacidade de processar dados com precisão em larga escala, criando assim resultados mais decisivos ou preditivos. Por exemplo, no processo de desenvolvimento de um produto de assistente virtual para vietnamitas (ViVi), tivemos que coletar e processar dezenas de milhares de horas de dados de áudio de alta qualidade, de centenas de milhares de vozes de diferentes regiões, idades e gêneros, com conteúdo abrangendo centenas de campos... Ou, mais recentemente, o lançamento do ViGPT - "A primeira versão vietnamita do ChatGPT para usuários finais", desenvolvido a partir de um Modelo de Linguagem de Big Data, totalmente de propriedade da VinBigdata. Este modelo foi treinado com base em 600 GB de dados vietnamitas refinados de muitos campos diferentes. Com nossa compreensão dos dados e da linguagem vietnamita, encontramos uma nova abordagem para encurtar o tempo de lançamento do ViGPT para apenas 9 meses após o nascimento do ChatGPT. Esta é a ressonância entre big data e inteligência artificial.
Qual é a sua opinião sobre a ligação entre pesquisa e valor prático para servir à comunidade? - Acredito que a pesquisa tecnológica só é verdadeiramente bem-sucedida quando realmente entra em ação, resolve problemas sociais e melhora a vida das pessoas. Para criar produtos comerciais práticos e resolver problemas empresariais e sociais, devemos sempre estar atentos e nos perguntar: qual o valor que os dados agregarão à vida? Até agora, pesquisamos uma variedade de produtos e soluções em diversos setores e áreas, principalmente ViGPT, VinDr - que fornece soluções de IA para diagnóstico por imagem médica , VinBase - uma plataforma para inteligência artificial, ou Vizone - um conjunto de soluções inteligentes para análise de imagens.
Com pessoal-chave da VinBigdata em um evento da Vingroup Corporation
NVCC
A 4ª Revolução Industrial vem ocorrendo com força em escala global. Quais vantagens você acha que o Vietnã tem? Comparado às revoluções anteriores, acredito que o Vietnã atualmente tem muitas vantagens para avançar nesta revolução industrial 4.0, ajudando a melhorar a posição do país no mapa mundial . As duas chaves para atingir esse objetivo são dados e pessoas. O Vietnã tem atualmente quase 100 milhões de pessoas, das quais uma alta proporção de jovens usa telefones e computadores pessoais. Além disso, temos especialistas de prestígio em inteligência artificial e pessoal jovem e altamente qualificado em tecnologia da informação, além de uma base muito boa em matemática. Então, e quanto às limitações? A primeira limitação que pode ser observada é que, apesar de termos uma grande população, ainda temos dificuldade em dominar dados, especificamente padronizar e sincronizar dados em instalações, unidades de negócios e administrações. Além disso, também enfrentamos outras restrições, como recursos de investimento limitados, especialmente investimentos em infraestrutura de computação de alto desempenho.
Na sua opinião, qual a importância de dominar os dados vietnamitas na jornada de criação e domínio da tecnologia para servir à vida do povo vietnamita? Atualmente, existem muitos produtos líderes de inteligência artificial no mundo, geralmente produtos de aplicativos de IA criados com base em grandes modelos de linguagem, como ChatGPT da OpenAI ou Bard do Google. No entanto, o vietnamita não é o grupo de idiomas principal para o desenvolvimento desses produtos. Portanto, a qualidade do conteúdo específico do vietnamita retornado aos usuários é mais ou menos afetada e apresenta uma alta possibilidade de erros, mais perigosamente, erros no conhecimento básico. Como vietnamitas, temos a vantagem de acessar nossas próprias fontes de dados. Somente nós temos a capacidade de entender as características dos dados vietnamitas, as necessidades e características do povo vietnamita. Portanto, dominar os dados vietnamitas é realmente a chave para dominar as tecnologias principais, que também são as tecnologias que servirão ao povo vietnamita.
Treinamento interno para membros do VinBigdata
NVCC
Como acessar fontes de dados específicas, especialmente quando a maioria dos vietnamitas hoje usa redes sociais no exterior? De fato, a maior fonte de dados humanos hoje (não apenas os vietnamitas) está na internet e nas redes sociais. No entanto, ainda podemos acessar e coletar dados de diferentes fontes, com base na compreensão das características dos dados vietnamitas, dependendo das características definidas por cada projeto. Por exemplo, os modelos GPT da OpenAI têm centenas, até trilhões de parâmetros, são treinados em enormes quantidades de dados e custam bilhões de dólares. Comparados a eles, escolhemos uma direção completamente diferente com base em nossa pesquisa, capacidades e recursos: ou seja, criar um modelo de linguagem vietnamita com uma arquitetura de apenas alguns bilhões de parâmetros, treinado em um conjunto de 600 GB de dados vietnamitas que coletamos e refinamos nós mesmos, mas com a mesma capacidade de processar vietnamita. Os resultados mostram que nossa arquitetura desenvolvida por nós mesmos pode se auto-otimizar, reduzir o tempo de treinamento do modelo de linguagem, reduzir custos e, ao mesmo tempo, garantir a qualidade do modelo. Quais são os desafios que você e sua equipe encontraram no processo de pesquisa e desenvolvimento de produtos de inteligência artificial? O primeiro desafio é certamente o tempo. A onda da tecnologia de inteligência artificial está chegando muito rapidamente e está em um período de explosão. No mundo, as principais empresas de tecnologia lançaram rapidamente produtos altamente completos, constantemente atualizados e aprimorados. Se formos lentos e não lançarmos produtos a tempo, certamente ficaremos para trás. Por outro lado, se quisermos criar produtos que possam ser aplicados e resolvam problemas sociais práticos, devemos também considerar a busca e o desenvolvimento de características excepcionais, especiais e únicas do produto.
Apresentação no Dia da Inteligência Artificial do Vietnã (AI4VN 2023)
NVCC
De fato, muitas pessoas e organizações no Vietnã e em todo o mundo sofreram grandes perdas com vazamentos de dados. Como você vê a questão da segurança de dados? Pode-se dizer que qualquer aplicação hoje em dia vem de dados. Ao trabalhar com dados, por um lado, devemos garantir o objetivo de aplicar os dados para criar a melhor tecnologia para a vida e, por outro, devemos garantir a segurança dos dados para pessoas e organizações. O fator humano é um elo muito importante no processo de garantir a segurança dos dados. Eles incluem desenvolvedores, usuários de produtos e usuários. Para os desenvolvedores, a conscientização sobre a segurança dos dados deve estar presente desde o início da coleta e do processamento dos dados. Muitas vezes, quando não há problemas, não temos consciência da importância da segurança dos dados. Mas se ocorrer um vazamento de dados, o dano pode ser enorme. Violações de dados podem ocorrer devido a problemas técnicos ou ataques intencionais de roubo de dados. Quando os dados são violados, indivíduos ou organizações podem ter suas informações usadas para fins ilegais por criminosos, enquanto as empresas podem sofrer perdas financeiras para corrigir problemas relacionados e até mesmo danos à sua marca.
Dr. Dao Duc Minh e a equipe VinBigdata em um evento
NVCC
Após a aspiração de dominar a tecnologia para servir ao povo vietnamita, será que existem passos para avançar para o mundo? Qualquer organização ou empresa que queira levar seus produtos ao mercado internacional deve cumprir os padrões internacionais. A VinBigdata possui pontos fortes em soluções e tecnologia, portanto, definir uma visão para conquistar o mundo é natural. É claro que, para implementar em diversos produtos e aplicações, é necessário contar com a colaboração de unidades internacionais com muitos anos de experiência e conhecimento de usuários em todo o mundo. Obrigado!
Comentário (0)