Forskere ved DeepSeek har publisert en ny eksperimentell modell kalt V3.2-exp, designet for å redusere inferenskostnader betydelig når den brukes i langkontekstuelle operasjoner.
DeepSeek publiserte denne modellen i et innlegg på Hugging Face, og la også ut en lenket akademisk artikkel på GitHub.
Den viktigste funksjonen i denne sofistikerte nye modellen kalles DeepSeek Sparse Attention. Systemet bruker i hovedsak en modul kalt en «lightning indexer» for å prioritere spesifikke utdrag fra kontekstvinduet.

DeepSeek annonserer en kostnadseffektiv inferensmodell.
Deretter velger et separat system kalt «sparse attention token selection system» spesifikke tokens fra disse snippene som skal lastes inn i modulens begrensede oppmerksomhetsvindu. Kombinert lar disse Sparse Attention-modeller operere på lange kontekstseksjoner med relativt lav serverbelastning.
For langkontekstuelle operasjoner er systemets fordeler betydelige. DeepSeeks foreløpige testing viser at kostnaden for et enkelt API-kall (inference function) kan reduseres med opptil halvparten i langkontekstuelle scenarier.
Ytterligere testing er nødvendig for å bygge en mer robust vurdering, men siden denne modellen er åpen kildekode og fritt tilgjengelig på Hugging Face, bør det ikke ta lang tid før tredjeparts testere kan evaluere påstandene i artikkelen.

I motsetning til andre AI-chatbot-modeller som bruker enorme mengder energi, fokuserer DeepSeek på å spare på opplærings- og driftskostnader.
DeepSeeks nye modell er ett i en rekke nylige gjennombrudd som tar for seg problemet med inferenskostnader – i hovedsak kostnaden for servere som kjører en forhåndstrent AI-modell, i motsetning til kostnaden for å trene den.
Når det gjelder DeepSeek, ønsket forskerne å gjøre den underliggende transformatorarkitekturen mer effektiv – og fant ut at det var behov for betydelige forbedringer.
DeepSeek, som er basert i Kina, er en uvanlig aktør innen AI-trenden, spesielt for de som ser på AI-forskning som en konkurranse mellom USA og Kina. Selskapet gjorde et plask tidligere i år med sin R1-modell, som primært trenes gjennom forsterkningslæring til en mye lavere kostnad enn sine amerikanske konkurrenter.
Denne modellen skapte imidlertid ikke en fullstendig revolusjon innen AI-opplæring slik noen hadde spådd, og selskapet forsvant gradvis fra rampelyset i de påfølgende månedene.
Den nye tilnærmingen med «sparsom oppmerksomhet» vil sannsynligvis ikke forårsake samme opprør som R1 – men den kan fortsatt lære amerikanske tjenesteleverandører noen sårt tiltrengte tips for å holde inferenskostnadene lave.
https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
Kilde: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html
Kommentar (0)