Tendo trabalhado para uma grande organização de inteligência artificial nos EUA, por que você decidiu voltar para casa para se juntar à VinBigdata?
Enquanto trabalhava nos EUA, embora participasse de muitos grandes projetos governamentais , os resultados que produzia eram frequentemente apenas algumas etapas de um processo amplo. Muitas vezes, devido à estrita confidencialidade dos projetos, eu nem sabia como as soluções que desenvolvia estavam sendo utilizadas.
Em 2017, retornei ao Vietnã, quando o país ainda estava em fase de desenvolvimento e havia muitos problemas relacionados a big data e inteligência artificial que precisavam ser resolvidos. Aceitei o convite do Professor Vu Ha Van para, juntos, concretizarmos o objetivo de desenvolver soluções tecnológicas vietnamitas que servissem à vida do povo vietnamita. Senti que meu retorno ao Vietnã seria muito mais significativo, pois poderia trabalhar em problemas de maior impacto.
Dr. Dao Duc Minh em um workshop
Na estratégia de desenvolvimento da inteligência artificial, qual o papel e a influência do big data, senhor?
Os dados desempenham um papel enorme e valioso no treinamento de inteligência artificial. O treinamento de um modelo de inteligência artificial de alta qualidade geralmente começa com o treinamento de um grande banco de dados. Portanto, para ter inteligência artificial de qualidade, primeiro precisamos ter bons dados.
Bons dados exigem quantidade e escala, qualidade, variedade e universalidade. O processo de coleta e processamento de milhares de horas de dados, desde a etapa de limpeza dos dados brutos até a criação de dados da mais alta qualidade para alimentar modelos de inteligência artificial, é muito caro e complexo. Em contraste, para analisar big data, precisamos usar inteligência artificial para garantir a capacidade de processar dados com precisão em larga escala, gerando assim melhores resultados decisivos ou preditivos.
Por exemplo, no processo de desenvolvimento de um produto de assistente virtual para vietnamitas (ViVi), tivemos que coletar e processar dezenas de milhares de horas de dados de áudio de alta qualidade, de centenas de milhares de vozes de diferentes regiões, idades e gêneros diversos, com conteúdo abrangendo centenas de campos...
Ou, mais recentemente, o lançamento do ViGPT - "A primeira versão vietnamita do ChatGPT para usuários finais", desenvolvido a partir de um Modelo de Linguagem Grande, de propriedade integral da VinBigdata. Este modelo é treinado com base em 600 GB de dados vietnamitas refinados de diversas áreas. Com nossa compreensão dos dados e da linguagem vietnamita, encontramos uma nova abordagem para encurtar o tempo de lançamento do ViGPT em apenas 9 meses após o nascimento do ChatGPT.
Essa é a ressonância entre big data e inteligência artificial.
Qual é a sua opinião sobre vincular pesquisa com valor prático para servir à comunidade?
- Acredito que a pesquisa tecnológica só é verdadeiramente bem-sucedida quando realmente entra na vida, resolve problemas sociais e melhora a vida das pessoas.
Para criar produtos comerciais práticos que resolvam problemas empresariais e sociais, devemos sempre prestar atenção e nos perguntar: que valor os dados trarão à vida?
Até agora, pesquisamos e desenvolvemos uma variedade de produtos e soluções para vários setores e áreas, normalmente ViGPT, VinDr - fornecendo soluções de IA em diagnóstico por imagem médica , VinBase - uma plataforma de inteligência bioartificial, ou Vizone - um conjunto de soluções inteligentes de análise de imagens.
Com pessoal-chave da VinBigdata em um evento da Vingroup Corporation
A 4ª Revolução Industrial vem ocorrendo com força em escala global. Quais vantagens você acha que o Vietnã tem?
Em comparação com revoluções anteriores, acredito que o Vietnã atualmente tem muitas vantagens para avançar nesta revolução industrial 4.0, ajudando a melhorar a posição do país no mapa mundial. As duas chaves para atingir esse objetivo são dados e pessoas.
Atualmente, o Vietnã tem quase 100 milhões de habitantes, dos quais uma alta proporção de jovens utiliza celulares e computadores pessoais. Além disso, contamos com especialistas renomados em inteligência artificial e jovens profissionais qualificados em tecnologia da informação, além de uma base muito sólida em matemática.
Então quais são as limitações?
A primeira limitação óbvia é que, apesar de termos uma grande população, ainda temos dificuldade em dominar dados, especialmente padronizar e sincronizar dados em instalações, unidades de negócios e administrações.
Além disso, também enfrentamos outras restrições, como recursos limitados de investimento, especialmente investimentos em infraestrutura de computação de alto desempenho.
Na sua opinião, qual a importância do papel do domínio de dados vietnamitas na jornada de criação e domínio de tecnologias para servir à vida do povo vietnamita?
Atualmente, existem muitos produtos líderes em inteligência artificial no mundo, geralmente produtos de aplicações de IA generativas baseados em grandes modelos de linguagem, como ChatGPT da OpenAI ou Bard do Google. No entanto, o vietnamita não é o principal grupo linguístico para o desenvolvimento desses produtos.
Portanto, a qualidade do conteúdo específico em vietnamita retornado aos usuários é mais ou menos afetada e tem grande possibilidade de erros, mais perigosamente, erros de conhecimento básico.
Como vietnamitas, temos a vantagem de acessar nossas próprias fontes de dados. Só nós temos a capacidade de compreender as características dos dados vietnamitas, as necessidades e as características do povo vietnamita. Portanto, dominar os dados vietnamitas é realmente a chave para dominar as tecnologias essenciais, que são as tecnologias que servirão ao povo vietnamita.
Treinamento interno para membros do VinBigdata
Como acessar fontes de dados específicas, especialmente quando a maioria dos vietnamitas hoje usa sites de redes sociais no exterior?
A realidade é que a maior fonte de dados humanos hoje (não apenas vietnamitas) está na internet e nas redes sociais. No entanto, ainda podemos acessar e coletar dados de diferentes fontes, com base na compreensão das características dos dados vietnamitas, dependendo das características definidas por cada projeto.
Por exemplo, os modelos GPT da OpenAI têm centenas, até trilhões de parâmetros, são treinados com enormes quantidades de dados e custam bilhões de dólares. Comparados a eles, escolhemos um caminho completamente diferente com base em nossa pesquisa, capacidades e recursos: criar um modelo em vietnamita com uma arquitetura de apenas alguns bilhões de parâmetros, treinado em um conjunto de dados vietnamitas de 600 GB que coletamos e refinamos nós mesmos, mas com capacidades equivalentes em termos de processamento em vietnamita. Os resultados mostram que nossa arquitetura, desenvolvida por nós mesmos, pode se auto-otimizar, encurtar o tempo de treinamento do modelo de linguagem, reduzir custos e ainda garantir a qualidade do modelo.
Quais são os desafios que você e sua equipe encontraram no processo de pesquisa e desenvolvimento de produtos de inteligência artificial?
O primeiro desafio é, sem dúvida, o tempo. A onda da tecnologia de inteligência artificial está chegando muito rapidamente e está em plena expansão. No mundo, as principais empresas de tecnologia lançaram rapidamente produtos altamente completos, constantemente atualizados e aprimorados. Se formos lentos e não lançarmos produtos a tempo, certamente ficaremos para trás.
Por outro lado, se quisermos criar produtos que possam ser aplicados e resolver problemas sociais práticos, também devemos considerar encontrar e desenvolver as características excepcionais, especiais e únicas do produto.
Apresentação no Dia da Inteligência Artificial do Vietnã (AI4VN 2023)
De fato, muitas pessoas e organizações no Vietnã e em todo o mundo sofreram grandes perdas com vazamentos de dados. Como você encara a questão da segurança de dados?
Pode-se dizer que qualquer aplicação hoje em dia vem de dados. Ao trabalhar com dados, por um lado, devemos garantir o objetivo de aplicar dados para criar a melhor tecnologia para a vida e, por outro, devemos garantir a segurança dos dados para indivíduos e organizações.
O fator humano é um elo muito importante no processo de garantia da segurança de dados. Ele inclui desenvolvedores, usuários de produtos e usuários. Para os desenvolvedores, a conscientização sobre a segurança dos dados deve estar presente desde o início da coleta e do processamento dos dados.
Muitas vezes, quando não há problemas, desconhecemos a importância da segurança de dados. Mas, se ocorrer um vazamento de dados, o dano pode ser enorme. Vazamentos de dados podem ocorrer devido a problemas técnicos ou ataques intencionais para roubar dados. Quando há vazamentos de dados, indivíduos ou organizações podem ter suas informações usadas por criminosos para fins ilegais, e as empresas podem sofrer perdas financeiras para corrigir problemas relacionados, até mesmo danos à sua marca.
Dr. Dao Duc Minh e a equipe VinBigdata em um evento
Após a aspiração de dominar a tecnologia para servir ao povo vietnamita, haverá passos para avançar para o mundo?
Qualquer organização ou empresa que queira levar seus produtos ao mercado internacional deve cumprir padrões internacionais. A VinBigdata tem pontos fortes em soluções e tecnologia, portanto, definir uma visão para conquistar o mundo é natural.
É claro que, para implementar em muitos produtos e aplicações diferentes, é necessário ter o suporte de unidades internacionais com muitos anos de experiência e compreensão de usuários ao redor do mundo.
Obrigado!
Fonte: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Comentário (0)