L'addestramento di DeepSeek era già economico, e ora le sue capacità di inferenza sono ancora più economiche.

I ricercatori di DeepSeek hanno pubblicato un nuovo modello sperimentale chiamato V3.2-exp, progettato per ridurre significativamente i costi di inferenza quando utilizzato in operazioni a lungo termine.

DeepSeek ha pubblicato questo modello in un post su Hugging Face e ha anche pubblicato un articolo accademico correlato su GitHub.

La caratteristica più importante di questo nuovo modello sofisticato si chiama DeepSeek Sparse Attention. In sostanza, il sistema utilizza un modulo chiamato "lightning indexer" per dare priorità a specifici frammenti dalla finestra di contesto.

DeepSeek annuncia un modello di inferenza economicamente vantaggioso.

Successivamente, un sistema separato, denominato "sistema di selezione dei token di attenzione sparsa", seleziona specifici token da tali frammenti per caricarli nella finestra di attenzione limitata del modulo. Insieme, questi elementi consentono ai modelli di attenzione sparsa di operare su sezioni di contesto lunghe con un carico del server relativamente basso.

Per le operazioni a lungo termine, i vantaggi del sistema sono significativi. I test preliminari di DeepSeek dimostrano che il costo di una semplice chiamata a una funzione di inferenza (API) può essere ridotto fino alla metà in scenari a lungo termine.

Sono necessari ulteriori test per elaborare una valutazione più solida, ma poiché questo modello è open-source e disponibile gratuitamente su Hugging Face, non dovrebbe passare molto tempo prima che tester esterni possano valutare le affermazioni contenute nell'articolo.

A differenza di altri modelli di chatbot basati sull'intelligenza artificiale che consumano enormi quantità di energia, DeepSeek si concentra sul risparmio in termini di costi di addestramento e operativi.

Il nuovo modello di DeepSeek è uno di una serie di recenti scoperte che affrontano il problema del costo di inferenza, ovvero il costo dei server che eseguono un modello di intelligenza artificiale pre-addestrato, in contrapposizione al costo del suo addestramento.

Nel caso di DeepSeek, i ricercatori puntavano a rendere più efficiente l'architettura del trasformatore sottostante e hanno scoperto che erano necessari miglioramenti significativi.

Con sede in Cina, DeepSeek è un attore atipico nel panorama dell'intelligenza artificiale, soprattutto per coloro che considerano la ricerca in questo campo come una competizione tra Stati Uniti e Cina. L'azienda ha fatto parlare di sé all'inizio di quest'anno con il suo modello R1, addestrato principalmente tramite apprendimento per rinforzo a un costo decisamente inferiore rispetto ai concorrenti statunitensi.

Tuttavia, questo modello non ha generato una vera e propria rivoluzione nell'addestramento dell'IA, come alcuni avevano previsto, e l'azienda è gradualmente scomparsa dai riflettori nei mesi successivi.

È improbabile che il nuovo approccio "a attenzione sparsa" susciti lo stesso clamore di R1, ma potrebbe comunque fornire ai fornitori di servizi statunitensi alcuni spunti preziosi per mantenere bassi i costi di inferenza.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Fonte: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html