En su informe, DeepSeek indicó que el costo total de la capacitación fue de 5,576 millones de dólares, debido principalmente al costo del alquiler de las unidades de procesamiento gráfico de Nvidia. La compañía también advirtió que esta cifra solo refleja la capacitación formal y no incluye los costos relacionados con investigaciones o experimentos previos sobre arquitectura, algoritmos y datos. Esto atrajo inmediatamente a los inversores y provocó que las acciones tecnológicas globales se evaporaran en un billón de dólares en tan solo un día, el 27 de enero.
¿Son los costos operativos de DeepSeek mucho más altos que lo que se afirma?
Ahora, un informe de la firma de investigación y consultoría de semiconductores SemiAnalysis ofrece una perspectiva diferente sobre los costos de desarrollo de DeepSeek. La firma estima que el gasto en hardware de DeepSeek es mucho mayor de lo declarado, señalando que el costo total de propiedad (CTP) y el costo de I+D fueron significativos.
SemiAnalysis afirmó que generar "datos sintéticos" para entrenar modelos requeriría una gran capacidad de procesamiento. Además, las empresas tendrían que experimentar, desarrollar nuevas arquitecturas, recopilar y depurar datos, y pagar a sus empleados.
¿DeepSeek necesita 50.000 GPU en lugar de poco más de 2.000 GPU?
Según los cálculos, los expertos afirmaron que DeepSeek opera un sistema informático a gran escala compuesto por unas 50.000 GPU Hopper, 10.000 GPU H800 y 10.000 GPU H100 más potentes, además de GPU H20 adicionales. Esta cifra contradice la afirmación previa de DeepSeek de utilizar solo 2.048 GPU Nvidia. La inversión total en el servidor se estima en unos 1.600 millones de dólares, mientras que los costes operativos ascienden a 944 millones de dólares.
SemiAnalysis cree que DeepSeek utilizó 50.000 GPU Nvidia
DeepSeek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo de cobertura chino especializado en IA. La startup surgió de la unidad de investigación de IA del fondo en abril de 2023, con el objetivo de desarrollar grandes modelos lingüísticos y lograr la inteligencia artificial general (IAG).
El interés en DeepSeek creció cuando la compañía lanzó R1, un modelo de razonamiento que compite con o1 de OpenAI, pero es de código abierto, lo que permite que cualquier desarrollador de IA lo use. Sin embargo, al igual que muchos otros chatbots chinos, DeepSeek también presenta limitaciones en ciertos temas.
Sam Altman, director ejecutivo de OpenAI, elogió el modelo de DeepSeek, señalando que es "claramente un excelente modelo". Sin embargo, también afirmó que existían pruebas de que DeepSeek había recopilado los datos de OpenAI para trabajar de forma "depurada".
[anuncio_2]
Fuente: https://thanhnien.vn/chi-phi-phat-trien-deepseek-bi-tang-boc-185250203151508438.htm
Kommentar (0)