Vietnam.vn - Nền tảng quảng bá Việt Nam

تدريب DeepSeek رخيص، والآن أصبح هناك استدلال أرخص

نشر باحثون في شركة DeepSeek نموذجًا تجريبيًا جديدًا مصممًا لتقليل تكلفة الاستدلال بشكل كبير عند استخدامه في سياقات طويلة.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

أعلن الباحثون في DeepSeek عن نموذج تجريبي جديد يسمى V3.2-exp، والذي تم تصميمه لتقليل تكلفة الاستدلال بشكل كبير عند استخدامه في العمليات ذات السياق الطويل.

أعلنت شركة DeepSeek عن النموذج في منشور على Hugging Face، ونشرت أيضًا ورقة أكاديمية مرتبطة على GitHub.

الميزة الأهم في النموذج الجديد والمعقد هي DeepSeek Sparse Attention. يستخدم النظام وحدةً تُسمى "مفهرس البرق" لتحديد أولوية مقتطفات محددة من نافذة السياق.

أعلنت شركة DeepSeek عن نموذج استدلال فعال من حيث التكلفة.

أعلنت شركة DeepSeek عن نموذج استدلال فعال من حيث التكلفة.

ثم يقوم نظام منفصل يُسمى "نظام اختيار الرموز الدقيقة" باختيار رموز محددة من تلك المقاطع لتحميلها في نافذة الانتباه المحدودة للوحدة. وبدمجها، تتيح هذه العناصر لنماذج الانتباه المتناثر العمل على أجزاء طويلة من السياق مع حمل خادم صغير نسبيًا.

بالنسبة للعمليات طويلة الأمد، تُعدّ فوائد النظام كبيرة. تُظهر الاختبارات الأولية لـ DeepSeek إمكانية خفض تكلفة استدعاء دالة الاستدلال البسيطة (API) بما يصل إلى النصف في سيناريوهات طويلة الأمد.

هناك حاجة إلى مزيد من الاختبارات لبناء تقييم أكثر قوة، ولكن بما أن النموذج مفتوح ومتاح مجانًا على Hugging Face، فلن يمر وقت طويل قبل أن تتمكن اختبارات الطرف الثالث من تقييم الادعاءات الواردة في الورقة.

dep.jpg

على عكس نماذج Chatbots الأخرى التي تستهلك قدرًا كبيرًا من الطاقة، فإن DeepSeek يتجه نحو توفير التكاليف من التدريب إلى التشغيل.

ويعد نموذج DeepSeek الجديد واحدًا من سلسلة من الاختراقات الحديثة التي تعالج مشكلة تكلفة الاستدلال - في الأساس، تكلفة الخادم لتشغيل نموذج الذكاء الاصطناعي المدرب مسبقًا، بدلاً من تكلفة تدريبه.

وفي حالة DeepSeek، كان الباحثون يبحثون عن طرق لجعل بنية المحول الأساسية أكثر كفاءة، ووجدوا أن هناك حاجة إلى إجراء تحسينات كبيرة.

شركة DeepSeek، ومقرها الصين، تُعدّ شخصيةً استثنائيةً في عالم الذكاء الاصطناعي، خاصةً لمن يعتبرون أبحاث الذكاء الاصطناعي منافسةً بين الولايات المتحدة والصين. وقد حققت الشركة نجاحًا باهرًا في وقتٍ سابق من هذا العام بنموذجها R1، المُدرّب أساسًا باستخدام التعلم المُعزّز بتكلفةٍ أقل بكثير من منافسيها الأمريكيين.

ومع ذلك، فشل النموذج في إحداث ثورة كاملة النطاق في تدريب الذكاء الاصطناعي كما توقع البعض، وتراجعت الشركة ببطء عن دائرة الضوء في الأشهر التي تلت ذلك.

من غير المرجح أن يسبب نهج "الاهتمام المتناثر" الجديد نفس القدر من الغضب مثل R1 - لكنه لا يزال يمكن أن يعلم مقدمي الخدمات في الولايات المتحدة بعض الحيل الضرورية للغاية للمساعدة في الحفاظ على انخفاض تكاليف الاستدلال.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

المصدر: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


تعليق (0)

No data
No data

نفس الفئة

الإعجاب بحقول طاقة الرياح الساحلية في جيا لاي المخفية في السحب
قم بزيارة قرية الصيد لو ديو في جيا لاي لرؤية الصيادين وهم يرسمون البرسيم على البحر
صانع الأقفال يحول علب البيرة إلى فوانيس نابضة بالحياة في منتصف الخريف
أنفق الملايين لتعلم تنسيق الزهور، واكتشف تجارب الترابط خلال مهرجان منتصف الخريف

نفس المؤلف

إرث

;

شكل

;

عمل

;

No videos available

الأحداث الجارية

;

النظام السياسي

;

محلي

;

منتج

;