ڈیپ سیک ٹریننگ سستی ہے، اب اس سے بھی سستا اندازہ ہے۔

DeepSeek کے محققین نے V3.2-exp نامی ایک نئے تجرباتی ماڈل کا اعلان کیا ہے، جو طویل سیاق و سباق کے آپریشنز میں استعمال ہونے پر تخمینہ کی لاگت کو نمایاں طور پر کم کرنے کے لیے ڈیزائن کیا گیا ہے۔

ڈیپ سیک نے ہگنگ فیس پر ایک پوسٹ میں ماڈل کا اعلان کیا، اور GitHub پر ایک منسلک تعلیمی پیپر بھی پوسٹ کیا۔

پیچیدہ نئے ماڈل کی سب سے اہم خصوصیت ڈیپ سیک اسپارس اٹینشن کہلاتی ہے۔ بنیادی طور پر، سسٹم سیاق و سباق کی کھڑکی سے مخصوص اقتباسات کو ترجیح دینے کے لیے ایک ماڈیول کا استعمال کرتا ہے جسے "لائٹننگ انڈیکسر" کہا جاتا ہے۔

ڈیپ سیک نے لاگت سے موثر انفرنس ماڈل کا اعلان کیا۔

ایک علیحدہ سسٹم جسے "فائن گرینڈ ٹوکن سلیکشن سسٹم" کہا جاتا ہے پھر ماڈیول کی محدود توجہ والی ونڈو میں لوڈ کرنے کے لیے ان ٹکڑوں سے مخصوص ٹوکنز کا انتخاب کرتا ہے۔ مشترکہ طور پر، وہ اسپارس اٹینشن ماڈلز کو نسبتاً چھوٹے سرور بوجھ کے ساتھ سیاق و سباق کے لمبے ٹکڑوں پر کام کرنے کی اجازت دیتے ہیں۔

طویل سیاق و سباق کی کارروائیوں کے لیے، نظام کے فوائد اہم ہیں۔ ڈیپ سیک کی ابتدائی جانچ سے پتہ چلتا ہے کہ ایک سادہ انفرنس فنکشن (API) کال کی لاگت کو طویل سیاق و سباق کے منظرناموں میں نصف تک کم کیا جا سکتا ہے۔

مزید مضبوط تشخیص کی تعمیر کے لیے مزید جانچ کی ضرورت ہے، لیکن چونکہ ماڈل کھلا اور آزادانہ طور پر Hugging Face پر دستیاب ہے، اس لیے اس میں زیادہ دیر نہیں لگنی چاہیے کہ تھرڈ پارٹی ٹیسٹ پیپر میں دعووں کا جائزہ لے سکیں۔

دیگر AI چیٹ بوٹ ماڈلز کے برعکس جو بہت زیادہ توانائی استعمال کرتے ہیں، DeepSeek تربیت سے لے کر آپریشن تک کے اخراجات کو بچانے کی سمت میں جاتا ہے۔

ڈیپ سیک کا نیا ماڈل حالیہ پیش رفتوں کی ایک سیریز میں سے ایک ہے جو تخمینہ لاگت کے مسئلے سے نمٹتا ہے — بنیادی طور پر، پہلے سے تربیت یافتہ AI ماڈل کو چلانے کی سرور لاگت، جیسا کہ اس کی تربیت کی لاگت کے برخلاف ہے۔

ڈیپ سیک کے معاملے میں، محققین بنیادی ٹرانسفارمر آرکیٹیکچر کو زیادہ موثر بنانے کے طریقے تلاش کر رہے تھے- اور انہوں نے محسوس کیا کہ اہم بہتری لانے کی ضرورت ہے۔

چین میں مقیم ڈیپ سیک AI کے جنون میں ایک غیر معمولی شخصیت ہے، خاص طور پر ان لوگوں کے لیے جو AI تحقیق کو امریکہ اور چین کے درمیان مقابلے کے طور پر دیکھتے ہیں۔ کمپنی نے اس سال کے شروع میں اپنے R1 ماڈل کے ساتھ ایک چمک پیدا کی، جو بنیادی طور پر اپنے امریکی حریفوں کے مقابلے میں بہت کم قیمت پر کمک سیکھنے کا استعمال کرتے ہوئے تربیت یافتہ ہے۔

تاہم، ماڈل AI ٹریننگ میں پورے پیمانے پر انقلاب برپا کرنے میں ناکام رہا جس کی کچھ لوگوں نے پیش گوئی کی تھی، اور اس کے بعد کے مہینوں میں کمپنی آہستہ آہستہ اسپاٹ لائٹ سے پیچھے ہٹ گئی۔

نئے "ویرل توجہ" کے نقطہ نظر سے R1 جتنا غصہ پیدا ہونے کا امکان نہیں ہے - لیکن یہ اب بھی امریکی سروس فراہم کرنے والوں کو کچھ انتہائی ضروری تدبیریں سکھا سکتا ہے تاکہ تخمینہ لاگت کو کم رکھنے میں مدد ملے۔

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

ماخذ: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html