DeepSeek revela sus secretos.

DeepSeek revela cómo construyen modelos de IA de bajo costo. Foto: Bloomberg .

En un informe de investigación publicado el 15 de mayo, DeepSeek compartió por primera vez detalles sobre cómo construyó uno de los sistemas de IA de código abierto más poderosos del mundo a una fracción del costo de sus competidores.

El estudio, titulado "Perspectivas sobre DeepSeek-V3: Desafíos de escalamiento y reflexiones sobre hardware para arquitecturas de IA", está coescrito con su fundador, Liang Wenfeng. DeepSeek atribuye su éxito al diseño paralelo de hardware y software, un enfoque diferenciador en comparación con muchas empresas que aún se centran en optimizar el software de forma independiente.

“DeepSeek-V3, entrenado con 2048 GPU Nvidia H800, demostró cómo el diseño paralelo puede resolver desafíos de forma eficiente, permitiendo un entrenamiento e inferencia eficientes a escala”, escribió el equipo de investigación en el informe. DeepSeek y el fondo de cobertura High-Flyer acumularon chips H800 antes de que Estados Unidos prohibiera su exportación a China a partir de 2023.

Según el artículo, el equipo de investigación de DeepSeek era plenamente consciente de las limitaciones del hardware y los elevados costes del entrenamiento de grandes modelos de lenguaje (LLM), la tecnología subyacente a chatbots como ChatGPT de OpenAI. Por ello, implementaron una serie de optimizaciones técnicas para aumentar el rendimiento de la memoria, optimizar la comunicación entre chips y optimizar la eficiencia general de la infraestructura de IA.

Además, DeepSeek enfatiza el papel de la arquitectura del Modelo Experto Mixto (MoE). Este método de aprendizaje automático divide el modelo de IA en subredes, cada una de las cuales procesa una porción independiente de los datos de entrada y trabaja en colaboración para optimizar los resultados.

MoE ayuda a reducir los costos de capacitación y a acelerar el razonamiento. Este método se ha adoptado ampliamente en la industria tecnológica china, incluyendo el último modelo Qwen3 de Alibaba.

DeepSeek captó la atención por primera vez con el lanzamiento de su modelo básico V3 en diciembre de 2024 y su modelo de razonamiento R1 en enero. Estos productos causaron revuelo en el mercado global, lo que contribuyó a una caída generalizada de las acciones de tecnologías relacionadas con la IA.

Aunque DeepSeek no ha revelado nuevos planes recientemente, ha mantenido el interés de la comunidad mediante informes periódicos. A finales de marzo, la compañía lanzó una pequeña actualización de DeepSeek-V3 y, a finales de abril, lanzó discretamente el sistema Prover-V2 para el procesamiento de pruebas matemáticas.

Kommentar (0)

5 toneladas

La carretera más bonita de Vietnam

Parque eólico marino de Ba Dong