في سياق التحول الرقمي والذكاء الاصطناعي في فيتنام، تتزايد أهمية تقنية التعرف الضوئي على الحروف (OCR) في رقمنة المستندات، وأتمتة العمليات التجارية، وتوفير التكاليف، وتحسين كفاءة الإدارة. ومع ذلك، فمع خصائص اللغة الفيتنامية من لهجات وكتابة يدوية، لا تقتصر مشكلة التعرف على الحروف على "قراءة الكلمات"، بل تتطلب من النموذج القدرة على فهم السياق فهمًا شاملًا.
أعلن معهد تطبيق تكنولوجيا CMC (CMC ATI) مؤخرًا عن نموذج CATI-VLM (فهم المستندات المرئية) الذي طوره فريق البحث من مستودع بيانات كبير بسعة 5 تيرابايت، ووصل إلى المركز 12 في العالم والمركز الأول في فيتنام في التصنيف الذي أعلنته للتو مسابقة القراءة القوية (RRC) في يونيو 2025 في فئة الإجابة على الأسئلة المرئية للمستندات (DocVQA).
مسابقة القراءة القوية (RRC) هي منصة علمية مرموقة (https://rrc.cvc.uab.es/) ينظمها مركز رؤية الحاسوب (CVC) التابع لجامعة برشلونة المستقلة (UAB) بإسبانيا، وهو مركز بحثي مرموق عالميًا في مجال رؤية الحاسوب. انطلقت المسابقة عام ٢٠١١، وترافق المؤتمر الدولي لتحليل النصوص والتعرف عليها (ICDAR)، أحد أكبر المنتديات العالمية في تحليل الوثائق ورؤية الحاسوب، وأصبحت حدثًا مهمًا يجذب الباحثين والمهندسين من جامعات مرموقة ومعاهد بحثية وشركات تقنية مثل جامعة تسينغهوا ومجموعة هيونداي موتور وتينسنت... صُممت مهام RRC لتعزيز التقدم التكنولوجي، وترتبط ارتباطًا وثيقًا بالمشكلات العملية بدءًا من الترجمة وإدارة بيانات المؤسسات وصولًا إلى تحليل المدن ومعالجة الوثائق التاريخية.
صرح الدكتور دانج مينه توان، مدير مركز CMC ATI، قائلاً: "تتجلى القدرات البحثية لفريق CMC في منصة بحثية عالمية مرموقة مثل مركز RRC. ونحن فخورون بأنه في وقت قصير، تمكن الفريق من تحقيق تصنيف عالٍ، لينافس أسماءً مرموقة من الدول المتقدمة. والأهم من ذلك، أن هذا دليل واضح على القدرة على إتقان التكنولوجيا لحل مشاكل محددة في فيتنام وفي المجالات المتخصصة فيها."
يختلف برنامج CATI-VLM عن تقنية التعرف الضوئي على الحروف التقليدية، حيث لا يقتصر على استخراج الأحرف فحسب، بل يفهم أيضًا طبقات متعددة من المعلومات: المحتوى النصي، والعناصر غير النصية (مثل مربعات الاختيار، والمخططات، والتوقيعات، والصيغ)، والتخطيط (هيكل الصفحة، والجداول، والنماذج)، والأسلوب (الخطوط، والإبرازات، إلخ). يستطيع النموذج الإجابة على الأسئلة المرئية المطروحة على صور المستندات، على غرار ChatGPT، دون الحاجة إلى تعلم نماذج محددة مسبقًا.
المصدر: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
تعليق (0)