![]() |
أطلقت شركة DeepSeek نموذجًا جديدًا للذكاء الاصطناعي قادرًا على معالجة المستندات باستخدام عدد أقل من الرموز يتراوح بين 7 و20 ضعفًا مقارنةً بالطرق التقليدية. الصورة: The Verge . |
وفقًا لصحيفة SCMP ، أصدرت شركة DeepSeek نموذجًا جديدًا للذكاء الاصطناعي متعدد الوسائط قادرًا على معالجة المستندات الكبيرة والمعقدة بعدد أقل بكثير من الرموز - أقل بـ 7 إلى 20 مرة - من طرق معالجة النصوص التقليدية.
تُعدّ الرموز أصغر وحدات النص التي تعالجها أنظمة الذكاء الاصطناعي. ويؤدي تقليل عدد الرموز إلى توفير تكاليف الحوسبة وزيادة كفاءة نموذج الذكاء الاصطناعي.
لتحقيق ذلك، استخدم نموذج DeepSeek-OCR (التعرف الضوئي على الأحرف) الإدراك البصري كوسيلة لضغط المعلومات. يتيح هذا النهج لنماذج اللغة الكبيرة معالجة كميات هائلة من النصوص دون تكبد تكاليف حسابية متزايدة بشكل متناسب.
"من خلال تقنية DeepSeek-OCR، أثبتنا أن استخدام الإدراك البصري لضغط المعلومات يمكن أن يحقق تخفيضات كبيرة في عدد الرموز - من 7 إلى 20 مرة لمراحل سياقية تاريخية مختلفة - مما يوفر اتجاهًا واعدًا"، صرحت شركة DeepSeek.
وفقًا لما ورد في منشور مدونة الشركة، يتكون DeepSeek-OCR من مكونين رئيسيين: DeepEncoder و DeepSeek3B-MoE-A570M، الذي يعمل كجهاز فك تشفير.
في هذا النموذج، يعمل DeepEncoder كأداة أساسية، مما يساعد على الحفاظ على مستويات تنشيط منخفضة في ظل إدخال عالي الدقة مع تحقيق نسب ضغط قوية لتقليل عدد الرموز.
بعد ذلك، يكون جهاز فك التشفير نموذجًا من نوع "مزيج الخبراء" (MoE) يحتوي على 570 مليون مُعامل، ومهمته إعادة بناء النص الأصلي. يقسم تصميم MoE النموذج إلى شبكات فرعية متخصصة في معالجة مجموعة فرعية من بيانات الإدخال، مما يُحسّن الأداء دون تفعيل النموذج بأكمله.
في OmniDocBench، وهو معيار لقياس قابلية قراءة المستندات، يتفوق DeepSeek-OCR على نماذج OCR الرئيسية مثل GOT-OCR 2.0 و MinerU 2.0، مع استخدام عدد أقل بكثير من الرموز المميزة.
المصدر: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







تعليق (0)