تصنيف RRC في فئة DocVQA، يونيو 2025.
في خضم التحول الرقمي السريع واعتماد الذكاء الاصطناعي في فيتنام، تلعب تقنية التعرف الضوئي على الأحرف (OCR) دورًا متزايد الأهمية في رقمنة الوثائق، وأتمتة العمليات التجارية، وخفض التكاليف، وتحسين كفاءة الإدارة. ومع ذلك، ونظرًا للخصائص الفريدة للغة الفيتنامية، بما في ذلك اللهجات وخطوط الكتابة، فإن مشكلة التعرف تتجاوز مجرد "قراءة" الأحرف؛ فهي تتطلب نموذجًا قادرًا على فهم السياق فهمًا شاملًا.
أعلن معهد CMC للتكنولوجيا التطبيقية (CMC ATI) مؤخرًا عن نموذج CATI-VLM (الفهم المرئي للمستندات) - الذي طوره فريق البحث التابع له من مستودع بيانات ضخم بحجم 5 تيرابايت - متجاوزًا العديد من المنافسين الدوليين ليحتل المرتبة 12 عالميًا والمرتبة الأولى في فيتنام في التصنيف الذي نشرته مسابقة القراءة القوية (RRC) في يونيو 2025 في فئة الإجابة على الأسئلة المرئية للمستندات (DocVQA).
مسابقة القراءة القوية (RRC) هي مسابقة علمية مرموقة (https://rrc.cvc.uab.es/) ينظمها مركز رؤية الكمبيوتر (CVC) التابع لجامعة برشلونة المستقلة (UAB)، إسبانيا، وهي مؤسسة بحثية مشهورة عالميًا في مجال رؤية الكمبيوتر.
انطلقت المسابقة عام ٢٠١١، وتُقام سنوياً ضمن فعاليات المؤتمر الدولي لتحليل النصوص والتعرف عليها (ICDAR)، أحد أبرز المنتديات العالمية في مجال رؤية الحاسوب. وتستقطب المسابقة باحثين ومهندسين من جامعات ومعاهد بحثية وشركات تقنية كبرى مثل جامعة تسينغهوا، ومجموعة هيونداي موتور، وشركة تينسنت. صُممت مسائل مسابقة RRC لتعزيز التقدم التكنولوجي، وترتبط ارتباطاً وثيقاً بمشاكل عملية تتراوح بين الترجمة وإدارة بيانات المؤسسات، وصولاً إلى التحليل الحضري ومعالجة الوثائق التاريخية.
صرح الدكتور دانغ مينه توان، مدير معهد CMC ATI، قائلاً: "يسعدنا أن يتم تأكيد القدرات البحثية لفريق CMC من خلال مسابقة عالمية مرموقة مثل RRC. ففي فترة وجيزة، حقق الفريق البحثي تصنيفًا عاليًا، مما يدل على قدرته التنافسية الدولية مع أسماء بارزة من الدول المتقدمة. والأهم من ذلك، أن هذا دليل واضح على قدرتنا على إتقان التكنولوجيا لحل مشكلات محددة تتعلق باللغة الفيتنامية والمجالات المتخصصة في فيتنام."
الدكتور دانغ مينه توان، مدير CMC ATI.
يختلف CATI-VLM عن تقنية التعرف الضوئي على الأحرف التقليدية (OCR) في أنه لا يقتصر على استخراج الأحرف فحسب، بل يفهم أيضًا طبقات متعددة من المعلومات: المحتوى النصي، والعناصر غير النصية (مثل مربعات الاختيار، والرسوم البيانية، والتوقيعات، والصيغ)، والتخطيط (بنية الصفحة، والجداول، والنماذج)، والأسلوب (الخطوط، والتمييز، وما إلى ذلك). يستطيع هذا النموذج الإجابة عن الأسئلة المرئية المطروحة على صور المستندات، على غرار ChatGPT، دون الحاجة إلى تعلم كل نموذج على حدة مسبقًا.
والجدير بالذكر أنه في تصنيف RRC، حقق CATI-VLM، الذي يحتوي على 3 مليارات معلمة فقط، أعلى دقة في 4 من أصل 7 مجموعات بيانات، متفوقًا على العديد من نماذج التكنولوجيا الكبيرة مثل Deepseek (27 مليار معلمة)، وGPT-4 Vision Turbo + Amazon Textract OCR (ضمن أفضل 34)، وBaidu (ضمن أفضل 22).
كما يوضح هذا الإنجاز نهجًا عمليًا، يركز على إتقان التقنيات الأساسية وتحسين النماذج لتناسب ظروف البنية التحتية في فيتنام، بدلاً من السعي وراء معايير قابلية التوسع.
مثال على نموذج طلب الالتحاق بالجامعة
تم التعرف على النص من خلال خط اليد في الصورة أعلاه.
أكد السيد نغوين ترونغ تشينه، رئيس مجلس الإدارة والرئيس التنفيذي لمجموعة سي إم سي للتكنولوجيا، قائلاً: "هذا ثمرة أكثر من عقد من الاستثمار المتواصل في البحث والتطوير التكنولوجي. وتؤكد إنجازات سي إم سي المتميزة في الساحة التكنولوجية العالمية استراتيجيتنا الرامية إلى إتقان التكنولوجيا الفيتنامية، إلى جانب توجهنا نحو التحول الرقمي والتوسع في السوق العالمية. ونحن على ثقة بأن الذكاء الفيتنامي قادر تماماً على منافسة شركات التكنولوجيا العالمية الكبرى، وتبوؤ مكانة مرموقة على خريطة التكنولوجيا العالمية."
سيتم تطبيق CATI-VLM في النظام البيئي لمنتجات C.OpenAI، بما في ذلك: المساعد الافتراضي CLS لمراجعة المستندات القانونية، وCMC SmartDoc - منصة تحويل المستندات الرقمية، ونظام إدارة المعرفة CMC KMS، ونظام إعداد التقارير الآلي للمكاتب الذكية، وتطبيقات Agentic Documents من الجيل التالي.
كوانغ هوي
المصدر: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






تعليق (0)