Pesquisadores da DeepSeek publicaram um novo modelo experimental chamado V3.2-exp, projetado para reduzir significativamente os custos de inferência quando usado em operações de contexto longo.
A DeepSeek publicou esse modelo em uma postagem no Hugging Face e também disponibilizou um artigo acadêmico relacionado no GitHub.
A característica mais importante desse novo e sofisticado modelo é chamada de Atenção Esparsa DeepSeek. Essencialmente, o sistema usa um módulo chamado "indexador relâmpago" para priorizar trechos específicos da janela de contexto.

DeepSeek anuncia um modelo de inferência com boa relação custo-benefício.
Em seguida, um sistema separado, chamado "sistema de seleção de tokens de atenção esparsa", seleciona tokens específicos desses trechos para carregar na janela de atenção limitada do módulo. Combinados, esses sistemas permitem que os modelos de Atenção Esparsa operem em longas seções de contexto com uma carga relativamente baixa no servidor.
Para operações de contexto extenso, os benefícios do sistema são significativos. Os testes preliminares do DeepSeek mostram que o custo de uma simples chamada de função de inferência (API) pode ser reduzido em até metade em cenários de contexto extenso.
São necessários mais testes para construir uma avaliação mais robusta, mas como este modelo é de código aberto e está disponível gratuitamente no Hugging Face, não deve demorar muito para que testadores terceirizados possam avaliar as afirmações do artigo.

Ao contrário de outros modelos de chatbots com IA que consomem quantidades enormes de energia, o DeepSeek concentra-se em economizar nos custos de treinamento e operação.
O novo modelo da DeepSeek faz parte de uma série de avanços recentes que abordam o problema do custo de inferência — essencialmente, o custo dos servidores que executam um modelo de IA pré-treinado, em oposição ao custo de treiná-lo.
No caso do DeepSeek, os pesquisadores buscavam tornar a arquitetura subjacente do transformador mais eficiente — e descobriram que melhorias significativas eram necessárias.
Sediada na China, a DeepSeek é uma participante atípica na onda da IA, especialmente para aqueles que veem a pesquisa em IA como uma competição entre os EUA e a China. A empresa causou sensação no início deste ano com seu modelo R1, treinado principalmente por meio de aprendizado por reforço a um custo muito menor do que o de seus concorrentes americanos.
No entanto, esse modelo não revolucionou completamente o treinamento de IA como alguns previram, e a empresa gradualmente perdeu o destaque nos meses seguintes.
É improvável que a nova abordagem de "atenção esparsa" cause a mesma indignação que a R1, mas ainda pode ensinar aos provedores de serviços dos EUA algumas dicas muito necessárias para ajudar a manter os custos de inferência baixos.
https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
Fonte: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html
Comentário (0)