![]() |
أطلقت DeepSeek نموذج ذكاء اصطناعي جديد قادر على معالجة المستندات باستخدام رموز أقل بـ 7 إلى 20 مرة من الطرق التقليدية. الصورة: The Verge . |
وفقًا لصحيفة ساوث تشاينا مورنينج بوست ، أصدرت شركة DeepSeek نموذجًا جديدًا للذكاء الاصطناعي متعدد الوسائط قادر على معالجة المستندات الكبيرة والمعقدة باستخدام عدد أقل بكثير من الرموز، أي أقل من 7 إلى 20 مرة من طرق معالجة النصوص التقليدية.
الرموز هي أصغر وحدات النص التي يعالجها الذكاء الاصطناعي. تقليل عدد الرموز يعني توفير تكاليف الحوسبة وزيادة كفاءة نموذج الذكاء الاصطناعي.
لتحقيق ذلك، استخدم نموذج DeepSeek-OCR (التعرف الضوئي على الحروف) الإدراك البصري كوسيلة لضغط المعلومات. يتيح هذا النهج لنماذج اللغات الكبيرة معالجة كميات هائلة من النصوص دون تكبد تكلفة حسابية متزايدة بشكل متناسب.
"من خلال DeepSeek-OCR، أثبتنا أن استخدام الإدراك البصري لضغط المعلومات يمكن أن يحقق تخفيضات كبيرة في الرموز - من 7 إلى 20 مرة لفترات سياقية تاريخية مختلفة، مما يوفر اتجاهًا واعدًا"، كما قال DeepSeek.
وفقًا لمدونة الشركة، يتكون DeepSeek-OCR من مكونين رئيسيين، DeepEncoder وDeepSeek3B-MoE-A570M، الذي يعمل بمثابة جهاز فك تشفير.
من بينها، يعمل DeepEncoder كمحرك أساسي للنموذج، مما يساعد على الحفاظ على مستويات تنشيط منخفضة تحت مدخلات عالية الدقة، مع تحقيق نسبة ضغط قوية لتقليل عدد الرموز.
وحدة فك التشفير هي نموذج مزيج الخبراء (MoE) ذو 570 مليون معلمة، ومهمته إعادة إنتاج النص الأصلي. تُقسّم بنية مزيج الخبراء النموذج إلى شبكات فرعية متخصصة في معالجة مجموعة فرعية من بيانات الإدخال، مما يُحسّن الأداء دون الحاجة إلى تفعيل النموذج بأكمله.
في OmniDocBench، وهو معيار قابلية قراءة المستندات، يتفوق DeepSeek-OCR على نماذج OCR الرئيسية مثل GOT-OCR 2.0 وMinerU 2.0، مع استخدام عدد أقل بكثير من الرموز.
المصدر: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
تعليق (0)