Vietnam.vn - Nền tảng quảng bá Việt Nam

آموزش DeepSeek ارزان است، حالا استنتاج ارزان‌تری هم وجود دارد

محققان DeepSeek یک مدل آزمایشی جدید منتشر کرده‌اند که برای کاهش قابل توجه هزینه استنتاج در زمینه‌های طولانی طراحی شده است.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

محققان DeepSeek از یک مدل آزمایشی جدید به نام V3.2-exp رونمایی کرده‌اند که برای کاهش قابل توجه هزینه استنتاج در عملیات‌های طولانی مدت طراحی شده است.

دیپ‌سیک این مدل را در پستی در Hugging Face معرفی کرد و همچنین یک مقاله دانشگاهی مرتبط را در گیت‌هاب منتشر کرد.

مهم‌ترین ویژگی این مدل جدید و پیچیده، DeepSeek Sparse Attention نام دارد. اساساً، این سیستم از ماژولی به نام «شاخص‌ساز رعد و برق» برای اولویت‌بندی گزیده‌های خاص از پنجره متن استفاده می‌کند.

DeepSeek مدل استنتاج مقرون به صرفه‌ای را معرفی می‌کند.

DeepSeek مدل استنتاج مقرون به صرفه‌ای را معرفی می‌کند.

سپس یک سیستم جداگانه به نام «سیستم انتخاب توکن ریزدانه» توکن‌های خاصی را از آن قطعه کدها انتخاب می‌کند تا در پنجره توجه محدود ماژول بارگذاری شود. ترکیب این دو، به مدل‌های توجه پراکنده اجازه می‌دهد تا روی بخش‌های طولانی از متن با بار سرور نسبتاً کم عمل کنند.

برای عملیات‌های با زمینه طولانی، مزایای سیستم قابل توجه است. آزمایش‌های اولیه DeepSeek نشان می‌دهد که هزینه یک فراخوانی تابع استنتاج ساده (API) در سناریوهای با زمینه طولانی می‌تواند تا نصف کاهش یابد.

برای ایجاد یک ارزیابی قوی‌تر، آزمایش‌های بیشتری لازم است، اما از آنجایی که این مدل متن‌باز است و به صورت رایگان در Hugging Face در دسترس است، نباید مدت زیادی طول بکشد تا آزمایش‌های شخص ثالث بتوانند ادعاهای موجود در مقاله را ارزیابی کنند.

بخش.jpg

برخلاف سایر مدل‌های چت‌بات هوش مصنوعی که انرژی زیادی مصرف می‌کنند، DeepSeek در جهت صرفه‌جویی در هزینه‌ها از آموزش تا بهره‌برداری گام برمی‌دارد.

مدل جدید DeepSeek یکی از مجموعه‌ای از پیشرفت‌های اخیر است که مشکل هزینه استنتاج - اساساً هزینه سرور برای اجرای یک مدل هوش مصنوعی از پیش آموزش دیده، در مقایسه با هزینه آموزش آن - را برطرف می‌کند.

در مورد DeepSeek، محققان به دنبال راه‌هایی برای افزایش کارایی معماری ترانسفورماتور پایه بودند و دریافتند که باید پیشرفت‌های قابل توجهی در آن ایجاد شود.

شرکت DeepSeek که در چین مستقر است، چهره‌ای غیرمعمول در دنیای هوش مصنوعی است، به خصوص برای کسانی که تحقیقات هوش مصنوعی را رقابتی بین ایالات متحده و چین می‌دانند. این شرکت اوایل امسال با مدل R1 خود که عمدتاً با استفاده از یادگیری تقویتی و با هزینه‌ای بسیار کمتر از رقبای آمریکایی خود آموزش دیده بود، سر و صدای زیادی به پا کرد.

با این حال، این مدل نتوانست آن انقلاب تمام‌عیاری را که برخی پیش‌بینی می‌کردند در آموزش هوش مصنوعی ایجاد کند و این شرکت در ماه‌های بعد به آرامی از کانون توجهات عقب‌نشینی کرد.

بعید است که رویکرد جدید «توجه پراکنده» به اندازه R1 خشم عمومی را برانگیزد - اما همچنان می‌تواند به ارائه‌دهندگان خدمات آمریکایی ترفندهای بسیار ضروری را برای کمک به پایین نگه داشتن هزینه‌های استنتاج بیاموزد.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

منبع: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


نظر (0)

No data
No data

در همان دسته‌بندی

تحسین مزارع بادی ساحلی گیا لای که در ابرها پنهان شده‌اند
از دهکده ماهیگیری لو دیو در گیا لای دیدن کنید تا ماهیگیرانی را ببینید که شبدر را روی دریا «نقاشی» می‌کنند.
یک قفل‌ساز قوطی‌های آبجو را به فانوس‌های رنگارنگ اواسط پاییز تبدیل می‌کند
میلیون‌ها دلار برای یادگیری گل‌آرایی و کسب تجربه‌های پیوند عاطفی در جشنواره نیمه پاییز هزینه کنید

از همان نویسنده

میراث

;

شکل

;

کسب و کار

;

No videos available

اخبار

;

نظام سیاسی

;

محلی

;

محصول

;