Vietnam.vn - Nền tảng quảng bá Việt Nam

डीपसीक प्रशिक्षण सस्ता है, अब अनुमान और भी सस्ता है

डीपसीक के शोधकर्ताओं ने एक नया प्रयोगात्मक मॉडल प्रकाशित किया है, जिसे लंबे संदर्भों में उपयोग किए जाने पर अनुमान की लागत को महत्वपूर्ण रूप से कम करने के लिए डिज़ाइन किया गया है।

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

डीपसीक के शोधकर्ताओं ने V3.2-exp नामक एक नए प्रायोगिक मॉडल की घोषणा की है, जिसे लंबे संदर्भ संचालन में उपयोग किए जाने पर अनुमान की लागत को काफी कम करने के लिए डिज़ाइन किया गया है।

डीपसीक ने हगिंग फेस पर एक पोस्ट में इस मॉडल की घोषणा की, तथा गिटहब पर एक लिंक्ड अकादमिक पेपर भी पोस्ट किया।

इस जटिल नए मॉडल की सबसे महत्वपूर्ण विशेषता डीपसीक स्पार्स अटेंशन है। मूलतः, यह सिस्टम संदर्भ विंडो से विशिष्ट अंशों को प्राथमिकता देने के लिए "लाइटनिंग इंडेक्सर" नामक एक मॉड्यूल का उपयोग करता है।

डीपसीक ने लागत प्रभावी अनुमान मॉडल की घोषणा की।

डीपसीक ने लागत प्रभावी अनुमान मॉडल की घोषणा की।

"फाइन-ग्रेन्ड टोकन सिलेक्शन सिस्टम" नामक एक अलग सिस्टम, उन स्निपेट से विशिष्ट टोकन चुनकर उन्हें मॉड्यूल की सीमित अटेंशन विंडो में लोड करता है। संयुक्त रूप से, ये स्पर्स अटेंशन मॉडल्स को अपेक्षाकृत कम सर्वर लोड के साथ संदर्भ के लंबे हिस्सों पर काम करने की अनुमति देते हैं।

दीर्घ-संदर्भ संचालनों के लिए, इस प्रणाली के लाभ महत्वपूर्ण हैं। डीपसीक के प्रारंभिक परीक्षण से पता चलता है कि दीर्घ-संदर्भ परिदृश्यों में एक साधारण अनुमान फ़ंक्शन (API) कॉल की लागत आधी तक कम की जा सकती है।

अधिक सुदृढ़ मूल्यांकन के लिए आगे परीक्षण की आवश्यकता है, लेकिन चूंकि मॉडल खुला है और हगिंग फेस पर स्वतंत्र रूप से उपलब्ध है, इसलिए तीसरे पक्ष के परीक्षणों द्वारा पेपर में किए गए दावों का मूल्यांकन करने में अधिक समय नहीं लगेगा।

dep.jpg

अन्य एआई चैटबॉट मॉडलों के विपरीत, जो बहुत अधिक ऊर्जा की खपत करते हैं, डीपसीक प्रशिक्षण से लेकर संचालन तक की लागत को बचाने की दिशा में काम करता है।

डीपसीक का नया मॉडल हाल ही में प्राप्त सफलताओं की श्रृंखला में से एक है, जो अनुमान लागत की समस्या से निपटता है - मूलतः, पूर्व-प्रशिक्षित एआई मॉडल को चलाने की सर्वर लागत, न कि उसे प्रशिक्षित करने की लागत।

डीपसीक के मामले में, शोधकर्ता बुनियादी ट्रांसफार्मर आर्किटेक्चर को और अधिक कुशल बनाने के तरीकों की तलाश कर रहे थे - और उन्होंने पाया कि इसमें महत्वपूर्ण सुधार किए जाने की आवश्यकता है।

चीन स्थित डीपसीक, एआई के क्षेत्र में एक असामान्य नाम है, खासकर उन लोगों के लिए जो एआई अनुसंधान को अमेरिका और चीन के बीच प्रतिस्पर्धा के रूप में देखते हैं। इस कंपनी ने इस साल की शुरुआत में अपने आर1 मॉडल के साथ धूम मचा दी थी, जिसे मुख्य रूप से सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया गया था और इसकी लागत अमेरिकी प्रतिस्पर्धियों की तुलना में बहुत कम थी।

हालाँकि, यह मॉडल एआई प्रशिक्षण में पूर्ण पैमाने पर क्रांति लाने में विफल रहा, जैसा कि कुछ लोगों ने भविष्यवाणी की थी, और कंपनी बाद के महीनों में धीरे-धीरे सुर्खियों से दूर हो गई।

नए "विरल ध्यान" दृष्टिकोण से R1 जितना आक्रोश पैदा होने की संभावना नहीं है - लेकिन यह अभी भी अमेरिकी सेवा प्रदाताओं को अनुमान लागत को कम रखने में मदद करने के लिए कुछ बहुत जरूरी तरकीबें सिखा सकता है।

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

स्रोत: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


टिप्पणी (0)

No data
No data

उसी श्रेणी में

बादलों में छिपे जिया लाई तटीय पवन ऊर्जा क्षेत्रों की प्रशंसा
समुद्र में तिपतिया घास 'चित्रित' कर रहे मछुआरों को देखने के लिए जिया लाई में लो डियू मछली पकड़ने वाले गांव का दौरा करें
लॉकस्मिथ बीयर के डिब्बों को जीवंत मध्य-शरद ऋतु लालटेन में बदल देता है
मध्य-शरद ऋतु महोत्सव के दौरान फूलों की सजावट सीखने और आपसी जुड़ाव के अनुभव प्राप्त करने के लिए लाखों खर्च करें

उसी लेखक की

विरासत

;

आकृति

;

व्यापार

;

No videos available

वर्तमान घटनाएं

;

राजनीतिक प्रणाली

;

स्थानीय

;

उत्पाद

;