Vietnam.vn - Nền tảng quảng bá Việt Nam

El entrenamiento con DeepSeek es barato, y ahora la inferencia es aún más barata.

Investigadores de DeepSeek han publicado un nuevo modelo experimental diseñado para reducir significativamente el coste de la inferencia cuando se utiliza en contextos largos.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Los investigadores de DeepSeek han anunciado un nuevo modelo experimental llamado V3.2-exp, diseñado para reducir significativamente el coste de la inferencia cuando se utiliza en operaciones de contexto largo.

DeepSeek anunció el modelo en una publicación en Hugging Face, y también publicó un artículo académico vinculado en GitHub.

La característica más importante del nuevo y complejo modelo se denomina DeepSeek Sparse Attention. Básicamente, el sistema utiliza un módulo llamado "indexador relámpago" para priorizar fragmentos específicos de la ventana de contexto.

DeepSeek anuncia un modelo de inferencia rentable.

DeepSeek anuncia un modelo de inferencia rentable.

Un sistema independiente, denominado «sistema de selección de tokens de grano fino», selecciona tokens específicos de esos fragmentos para cargarlos en la ventana de atención limitada del módulo. En conjunto, permiten que los modelos de Atención Esparsa operen con contextos extensos con una carga de servidor relativamente baja.

Para operaciones de contexto extenso, las ventajas del sistema son significativas. Las pruebas preliminares de DeepSeek demuestran que el coste de una llamada a una función de inferencia simple (API) puede reducirse hasta la mitad en escenarios de contexto extenso.

Se necesitan más pruebas para elaborar una evaluación más sólida, pero dado que el modelo es abierto y está disponible gratuitamente en Hugging Face, no debería pasar mucho tiempo antes de que pruebas de terceros puedan evaluar las afirmaciones del artículo.

dep.jpg

A diferencia de otros modelos de chatbots de IA que consumen mucha energía, DeepSeek se orienta hacia el ahorro de costes, desde el entrenamiento hasta el funcionamiento.

El nuevo modelo de DeepSeek es uno de una serie de avances recientes que abordan el problema del coste de inferencia; esencialmente, el coste del servidor para ejecutar un modelo de IA preentrenado, en contraposición al coste de entrenarlo.

En el caso de DeepSeek, los investigadores buscaban formas de hacer más eficiente la arquitectura básica del transformador y descubrieron que era necesario realizar mejoras significativas.

Con sede en China, DeepSeek es una figura atípica en el auge de la IA, sobre todo para quienes ven la investigación en IA como una competencia entre Estados Unidos y China. La empresa causó sensación a principios de este año con su modelo R1, entrenado principalmente mediante aprendizaje por refuerzo a un coste mucho menor que el de sus competidores estadounidenses.

Sin embargo, el modelo no logró desencadenar la revolución a gran escala en el entrenamiento de IA que algunos predijeron, y la empresa se fue retirando lentamente del foco mediático en los meses siguientes.

Es poco probable que el nuevo enfoque de “atención dispersa” cause tanta indignación como R1, pero aún así podría enseñar a los proveedores de servicios estadounidenses algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Fuente: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Kommentar (0)

No data
No data

Mismo tema

Misma categoría

Cuarta vez que veo la montaña Ba Den con claridad, algo poco común desde Ciudad Ho Chi Minh.
Deléitate con los hermosos paisajes de Vietnam en el videoclip de Soobin, Muc Ha Vo Nhan.
Las cafeterías que adelantan la decoración navideña disparan sus ventas, atrayendo a muchos jóvenes.
¿Qué tiene de especial la isla cercana a la frontera marítima con China?

Mismo autor

Herencia

Cifra

Negocio

Admirando los trajes nacionales de 80 bellezas que compiten en Miss Internacional 2025 en Japón

Actualidad

Sistema político

Local

Producto