Les chercheurs de DeepSeek ont annoncé un nouveau modèle expérimental appelé V3.2-exp, conçu pour réduire considérablement le coût de l'inférence lorsqu'il est utilisé dans des opérations de contexte long.
DeepSeek a annoncé le modèle dans un article sur Hugging Face et a également publié un article universitaire lié sur GitHub.
La fonctionnalité la plus importante de ce nouveau modèle complexe s'appelle DeepSeek Sparse Attention. Concrètement, le système utilise un module appelé « indexeur éclair » pour prioriser des extraits spécifiques de la fenêtre contextuelle.
DeepSeek annonce un modèle d'inférence rentable.
Un système distinct, appelé « système de sélection de jetons à granularité fine », sélectionne ensuite des jetons spécifiques parmi ces extraits pour les charger dans la fenêtre d'attention limitée du module. Ensemble, ils permettent aux modèles d'attention clairsemée de fonctionner sur de longs segments de contexte avec une charge serveur relativement faible.
Pour les opérations à contexte long, les avantages du système sont significatifs. Les tests préliminaires de DeepSeek montrent que le coût d'un simple appel à une fonction d'inférence (API) peut être réduit jusqu'à la moitié dans les scénarios à contexte long.
Des tests supplémentaires sont nécessaires pour construire une évaluation plus robuste, mais comme le modèle est ouvert et disponible gratuitement sur Hugging Face, il ne faudra pas longtemps avant que des tests tiers puissent évaluer les affirmations du document.
Contrairement à d’autres modèles de chatbot IA qui consomment beaucoup d’énergie, DeepSeek va dans le sens d’une réduction des coûts de la formation à l’exploitation.
Le nouveau modèle de DeepSeek fait partie d’une série de percées récentes qui s’attaquent au problème du coût d’inférence, c’est-à-dire le coût du serveur pour exécuter un modèle d’IA pré-entraîné, par opposition au coût de sa formation.
Dans le cas de DeepSeek, les chercheurs cherchaient des moyens de rendre l’architecture de base du transformateur plus efficace et ont découvert que des améliorations significatives devaient être apportées.
Basée en Chine, DeepSeek est une figure atypique dans le monde de l'IA, surtout pour ceux qui voient la recherche en IA comme une compétition entre les États-Unis et la Chine. L'entreprise a fait sensation en début d'année avec son modèle R1, entraîné principalement par apprentissage par renforcement, à un coût bien inférieur à celui de ses concurrents américains.
Cependant, le modèle n’a pas réussi à déclencher la révolution à grande échelle dans la formation de l’IA que certains avaient prédite, et l’entreprise s’est lentement retirée des projecteurs dans les mois qui ont suivi.
Il est peu probable que la nouvelle approche de « l’attention clairsemée » suscite autant d’indignation que R1, mais elle pourrait néanmoins enseigner aux fournisseurs de services américains quelques astuces indispensables pour les aider à maintenir les coûts d’inférence à un niveau bas.
https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
Source : https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html
Comment (0)