Vietnam.vn - Nền tảng quảng bá Việt Nam

El entrenamiento de DeepSeek es barato, ahora hay inferencia aún más barata

Los investigadores de DeepSeek han publicado un nuevo modelo experimental diseñado para reducir significativamente el coste de inferencia cuando se utiliza en contextos largos.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Los investigadores de DeepSeek han anunciado un nuevo modelo experimental llamado V3.2-exp, diseñado para reducir significativamente el coste de inferencia cuando se utiliza en operaciones de contexto largo.

DeepSeek anunció el modelo en una publicación en Hugging Face y también publicó un artículo académico vinculado en GitHub.

La característica más importante del nuevo y complejo modelo se denomina Atención Dispersa de DeepSeek. En esencia, el sistema utiliza un módulo llamado "indexador Lightning" para priorizar fragmentos específicos de la ventana de contexto.

DeepSeek anuncia un modelo de inferencia rentable.

DeepSeek anuncia un modelo de inferencia rentable.

Un sistema independiente, denominado "sistema de selección de tokens de grano fino", selecciona tokens específicos de esos fragmentos para cargarlos en la ventana de atención limitada del módulo. Combinados, permiten que los modelos de Atención Dispersa funcionen en fragmentos extensos de contexto con una carga de servidor relativamente baja.

Para operaciones de contexto largo, las ventajas del sistema son significativas. Las pruebas preliminares de DeepSeek muestran que el coste de una simple llamada a una función de inferencia (API) puede reducirse hasta la mitad en escenarios de contexto largo.

Se necesitan más pruebas para construir una evaluación más sólida, pero dado que el modelo está abierto y disponible gratuitamente en Hugging Face, no debería pasar mucho tiempo antes de que pruebas de terceros puedan evaluar las afirmaciones del documento.

dep.jpg

A diferencia de otros modelos de AI Chatbot que consumen mucha energía, DeepSeek va en la dirección de ahorrar costos desde la capacitación hasta la operación.

El nuevo modelo de DeepSeek es uno de una serie de avances recientes que abordan el problema del costo de inferencia: esencialmente, el costo del servidor para ejecutar un modelo de IA previamente entrenado, a diferencia del costo de entrenarlo.

En el caso de DeepSeek, los investigadores buscaban formas de hacer más eficiente la arquitectura básica del transformador y descubrieron que era necesario realizar mejoras significativas.

Con sede en China, DeepSeek es una figura inusual en el auge de la IA, especialmente para quienes ven la investigación en IA como una competencia entre Estados Unidos y China. La compañía causó sensación a principios de este año con su modelo R1, entrenado principalmente mediante aprendizaje de refuerzo a un costo mucho menor que el de sus competidores estadounidenses.

Sin embargo, el modelo no logró provocar la revolución a gran escala en el entrenamiento de IA que algunos predijeron, y la empresa se retiró lentamente del foco de atención en los meses siguientes.

Es poco probable que el nuevo enfoque de “atención dispersa” cause tanta indignación como el R1, pero aún así podría enseñar a los proveedores de servicios estadounidenses algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.

https://techcrunch.com/2025/09/29/deepseek-lanza-un-modelo-de-atención-dispersa-que-reduce-los-costos-de-las-API-a-la-mitad/

Fuente: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Kommentar (0)

No data
No data

Misma categoría

Admirando los campos de energía eólica costera de Gia Lai ocultos entre las nubes
Visita el pueblo pesquero de Lo Dieu en Gia Lai para ver a los pescadores "dibujando" tréboles en el mar.
Un cerrajero convierte latas de cerveza en vibrantes faroles de mediados de otoño
Invierta millones en aprender arreglos florales y encuentre experiencias que fortalezcan su relación durante el Festival del Medio Otoño.

Mismo autor

Herencia

;

Cifra

;

Negocio

;

No videos available

Actualidad

;

Sistema político

;

Local

;

Producto

;