Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek-opplæring er billig, nå finnes det enda billigere inferens

Forskere ved DeepSeek har publisert en ny eksperimentell modell som er utviklet for å redusere kostnadene ved inferens betydelig når den brukes i lange kontekster.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Forskere ved DeepSeek har annonsert en ny eksperimentell modell kalt V3.2-exp, designet for å redusere kostnadene ved inferens betydelig når den brukes i lange kontekstoperasjoner.

DeepSeek annonserte modellen i et innlegg på Hugging Face, og publiserte også en lenket akademisk artikkel på GitHub.

Den viktigste funksjonen i den komplekse nye modellen kalles DeepSeek Sparse Attention. Systemet bruker i hovedsak en modul kalt en «lightning indexer» for å prioritere spesifikke utdrag fra kontekstvinduet.

DeepSeek kunngjør kostnadseffektiv inferensmodell.

DeepSeek kunngjør kostnadseffektiv inferensmodell.

Et separat system kalt «finkornet tokenvalgssystem» velger deretter spesifikke tokens fra disse snippene som skal lastes inn i modulens begrensede oppmerksomhetsvindu. Kombinert lar de Sparse Attention-modeller operere på lange kontekstbiter med relativt liten serverbelastning.

For langkontekstoperasjoner er systemets fordeler betydelige. DeepSeeks foreløpige testing viser at kostnaden for et enkelt API-kall (inference function) kan reduseres med opptil halvparten i langkontekstscenarier.

Ytterligere testing er nødvendig for å bygge en mer robust vurdering, men siden modellen er åpen og fritt tilgjengelig på Hugging Face, bør det ikke ta lang tid før tredjepartstester kan evaluere påstandene i artikkelen.

avd.jpg

I motsetning til andre AI Chatbot-modeller som bruker mye energi, går DeepSeek i retning av å spare kostnader fra opplæring til drift.

DeepSeeks nye modell er ett av en rekke nylige gjennombrudd som takler problemet med inferenskostnader – i hovedsak serverkostnaden ved å kjøre en forhåndstrent AI-modell, i motsetning til kostnaden ved å trene den.

I DeepSeeks tilfelle lette forskerne etter måter å gjøre den grunnleggende transformatorarkitekturen mer effektiv – og fant ut at det måtte gjøres betydelige forbedringer.

DeepSeek, som er basert i Kina, er en uvanlig figur i AI-manien, spesielt for de som ser på AI-forskning som en konkurranse mellom USA og Kina. Selskapet gjorde et plask tidligere i år med sin R1-modell, som primært ble trent ved hjelp av forsterkningslæring til en mye lavere kostnad enn sine amerikanske konkurrenter.

Modellen klarte imidlertid ikke å utløse den fullskala revolusjonen innen AI-opplæring som noen forutså, og selskapet trakk seg sakte tilbake fra rampelyset i månedene som fulgte.

Den nye tilnærmingen med «sparsom oppmerksomhet» vil sannsynligvis ikke forårsake like mye opprør som R1 – men den kan fortsatt lære amerikanske tjenesteleverandører noen sårt tiltrengte triks for å holde inferenskostnadene lave.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Kilde: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Kommentar (0)

No data
No data

I samme emne

I samme kategori

Hva er spesielt med øya nær den maritime grensen til Kina?
Hanoi yrer av blomstersesongen som «kaller vinter» til gatene
Forbløffet over det vakre landskapet som et akvarellmaleri ved Ben En
Beundrer nasjonaldraktene til 80 skjønnheter som konkurrerer i Miss International 2025 i Japan

Av samme forfatter

Arv

Figur

Forretninger

75 år med vennskap mellom Vietnam og Kina: Tu Vi Tams gamle hus i Ba Mong Street, Tinh Tay, Quang Tay

Aktuelle hendelser

Det politiske systemet

Lokalt

Produkt