Em seu relatório, a DeepSeek afirmou que o custo total do treinamento foi de US$ 5,576 milhões, devido principalmente ao preço do aluguel das unidades de processamento gráfico da Nvidia. A empresa também alertou que esse valor reflete apenas o "treinamento formal" e não inclui custos relacionados a pesquisas ou experimentos anteriores sobre arquitetura, algoritmos e dados. Isso atraiu imediatamente a atenção dos investidores e fez com que as ações de empresas de tecnologia globais despencassem US$ 1 trilhão somente em 27 de janeiro.
Os custos operacionais da DeepSeek são muito maiores do que eles alegam?
Agora, um relatório da SemiAnalysis, empresa de pesquisa e consultoria em semicondutores, oferece uma perspectiva diferente sobre os custos de desenvolvimento do DeepSeek. A empresa estima que os gastos com hardware do DeepSeek sejam significativamente maiores do que o divulgado anteriormente, destacando também os substanciais custos de pesquisa e desenvolvimento (P&D) e o custo total de propriedade.
A SemiAnalysis afirma que a criação de "dados sintéticos" para o treinamento de modelos exigirá um "esforço computacional significativo". Além disso, as empresas também precisarão testar e desenvolver novas arquiteturas, coletar e limpar dados e pagar os salários dos funcionários.
Será que o DeepSeek precisa de 50.000 GPUs em vez de pouco mais de 2.000?
Segundo cálculos, especialistas afirmam que a DeepSeek opera um sistema de computação em larga escala composto por aproximadamente 50.000 GPUs Hopper, sendo 10.000 GPUs H800 e 10.000 GPUs H100, mais potentes, além de GPUs H20 adicionais. Isso contradiz a alegação anterior da DeepSeek de utilizar apenas 2.048 GPUs da Nvidia. O custo total de investimento nos servidores é estimado em cerca de US$ 1,6 bilhão, enquanto os custos operacionais chegam a US$ 944 milhões.
A SemiAnalysis acredita que a DeepSeek utilizou 50.000 GPUs da Nvidia.
A DeepSeek foi fundada em 2023 por Liang Wenfeng, cofundador da High-Flyer, um fundo de hedge focado em IA na China. A startup surgiu da unidade de pesquisa em IA do fundo em abril de 2023, com o objetivo de desenvolver modelos de linguagem em larga escala e alcançar a inteligência artificial geral (AGI).
O interesse no DeepSeek aumentou quando a empresa lançou o R1, um modelo de raciocínio que compete com o o1 da OpenAI, mas é oferecido como código aberto, permitindo que qualquer desenvolvedor de IA o utilize. No entanto, como muitos outros chatbots chineses, o DeepSeek também tem limitações em certos tópicos.
O CEO da OpenAI, Sam Altman, elogiou o modelo da DeepSeek, enfatizando que é "claramente um ótimo modelo". No entanto, ele também afirmou que há evidências que sugerem que a DeepSeek coletou dados da OpenAI para operar usando um método de "destilação".
Fonte: https://thanhnien.vn/chi-phi-phat-trien-deepseek-bi-tang-boc-185250203151508438.htm






Comentário (0)