Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek revela el secreto

DeepSeek revela por primera vez cómo construir el modelo de IA de código abierto líder en el mundo a bajo costo, gracias al diseño simultáneo de hardware y software.

ZNewsZNews19/05/2025

DeepSeek revela cómo crearon un modelo de IA económico. Foto: Bloomberg .

En un informe de investigación publicado el 15 de mayo, DeepSeek compartió detalles por primera vez sobre cómo construyó uno de los sistemas de IA de código abierto más poderosos del mundo a una fracción del costo de sus competidores.

El estudio, titulado "Perspectivas sobre DeepSeek-V3: Desafíos de escalamiento y reflexiones sobre hardware para arquitecturas de IA", fue coautor del fundador, Liang Wenfeng. DeepSeek atribuye su éxito al diseño de hardware y software en paralelo, una estrategia distinta a la de muchas empresas que se centran en optimizar el software de forma aislada.

“DeepSeek-V3, entrenado con 2048 GPU Nvidia H800, demuestra cómo los diseños paralelos pueden abordar eficazmente estos desafíos, permitiendo un entrenamiento e inferencia eficientes a escala”, escribió el equipo en el artículo. DeepSeek y el fondo de cobertura High-Flyer se abastecieron de la línea de chips H800 antes de que Estados Unidos prohibiera su exportación a China en 2023.

El equipo de DeepSeek, consciente de las limitaciones del hardware y los “costos exorbitantes” del entrenamiento de modelos de lenguaje grandes (LLMs), la tecnología subyacente detrás de chatbots como ChatGPT de OpenAI, ha implementado una serie de optimizaciones técnicas que aumentan la eficiencia de la memoria, mejoran la comunicación entre chips y mejoran la eficiencia de toda la infraestructura de IA, según el documento.

Además, DeepSeek enfatiza el papel de la arquitectura del Modelo de Experto (MoE). Este método de aprendizaje automático divide un modelo de IA en subredes, cada una de las cuales procesa una parte independiente de los datos de entrada y trabaja en colaboración para optimizar los resultados.

MoE reduce los costos de entrenamiento y acelera la inferencia. Este método se ha adoptado ampliamente en la industria tecnológica china, incluyendo el último modelo Qwen3 de Alibaba.

DeepSeek fue noticia con el lanzamiento de su modelo básico V3 en diciembre de 2024 y su modelo de razonamiento R1 en enero. Estos productos causaron revuelo en los mercados globales, lo que contribuyó a una fuerte caída de las acciones de tecnologías relacionadas con la IA.

Aunque DeepSeek no ha revelado nuevos planes últimamente, ha mantenido el interés de la comunidad mediante la publicación de informes periódicos. A finales de marzo, la compañía lanzó una pequeña actualización de DeepSeek-V3 y, a finales de abril, lanzó discretamente su sistema Prover-V2 para el procesamiento de pruebas matemáticas.

Fuente: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Kommentar (0)

No data
No data
Escena mágica en la colina del té "cuenco al revés" en Phu Tho
Tres islas de la región central se asemejan a las Maldivas y atraen turistas en verano.
Contemple la brillante ciudad costera de Quy Nhon, Gia Lai, por la noche.
Imagen de campos en terrazas en Phu Tho, con suave pendiente, brillantes y hermosos como espejos antes de la temporada de siembra.
La fábrica Z121 está lista para la Noche Final Internacional de Fuegos Artificiales
La famosa revista de viajes elogia la cueva Son Doong como "la más magnífica del planeta"
Una cueva misteriosa atrae a turistas occidentales, comparada con la "cueva Phong Nha" en Thanh Hoa
Descubra la belleza poética de la bahía de Vinh Hy
¿Cómo se procesa el té más caro de Hanoi, cuyo precio supera los 10 millones de VND/kg?
Sabor de la región del río

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto