DeepSeek revela seus segredos.

DeepSeek revela como constrói modelos de IA de baixo custo. Foto: Bloomberg .

Em um relatório de pesquisa publicado em 15 de maio, a DeepSeek compartilhou pela primeira vez detalhes sobre como construiu um dos sistemas de IA de código aberto mais poderosos do mundo a uma fração do custo de seus concorrentes.

O estudo, intitulado “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures” (Percepções sobre o DeepSeek-V3: Desafios de Escalabilidade e Reflexões sobre Hardware para Arquiteturas de IA), é de autoria conjunta com o fundador Liang Wenfeng. A DeepSeek atribui seu sucesso ao design paralelo de hardware e software, uma abordagem diferenciadora em comparação com muitas empresas que ainda se concentram na otimização de software de forma independente.

“O DeepSeek-V3, treinado em 2.048 GPUs Nvidia H800, demonstrou como o design paralelo pode resolver desafios de forma eficiente, permitindo treinamento e inferência eficientes em grande escala”, escreveu a equipe de pesquisa no relatório. A DeepSeek e o fundo de hedge High-Flyer haviam estocado chips H800 antes de sua exportação para a China ser proibida pelos EUA a partir de 2023.

De acordo com o artigo, a equipe de pesquisa da DeepSeek estava ciente das limitações de hardware e dos custos exorbitantes do treinamento de grandes modelos de linguagem (LLMs), a tecnologia subjacente a chatbots como o ChatGPT da OpenAI. Portanto, eles implementaram uma série de otimizações técnicas para aumentar o desempenho da memória, melhorar a comunicação entre os chips e aprimorar a eficiência geral da infraestrutura de IA.

Além disso, o DeepSeek enfatiza o papel da arquitetura de Modelo Especialista Misto (MoE). Trata-se de um método de aprendizado de máquina que divide o modelo de IA em sub-redes, cada uma processando uma porção separada dos dados de entrada e trabalhando em conjunto para otimizar os resultados.

O MoE ajuda a reduzir os custos de treinamento e a acelerar o raciocínio. Esse método já é amplamente adotado na indústria de tecnologia chinesa, incluindo o mais recente modelo Qwen3 da Alibaba.

A DeepSeek chamou a atenção pela primeira vez ao lançar seu modelo básico V3 em dezembro de 2024 e seu modelo de raciocínio R1 em janeiro. Esses produtos causaram alvoroço no mercado global, contribuindo para uma queda generalizada nas ações de empresas de tecnologia relacionadas à IA.

Embora a DeepSeek não tenha revelado novos planos recentemente, ela tem mantido o interesse da comunidade por meio de relatórios regulares. No final de março, a empresa lançou uma pequena atualização para o DeepSeek-V3 e, no final de abril, lançou discretamente o sistema Prover-V2 para processamento de provas matemáticas.

Fonte: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html

Comentário (0)

Através de Ramos e História

Orgulho do Vietnã

Ruas de Saigon em um dia de semana