DocVQA زمرہ میں RRC کی درجہ بندی، جون 2025۔
ویتنام میں تیزی سے ڈیجیٹل تبدیلی اور مصنوعی ذہانت کو اپنانے کے درمیان، OCR (آپٹیکل کریکٹر ریکگنیشن) ٹیکنالوجی دستاویز کی ڈیجیٹلائزیشن، کاروباری عمل آٹومیشن، لاگت کی بچت، اور بہتر انتظامی کارکردگی میں تیزی سے اہم کردار ادا کر رہی ہے۔ تاہم، ویتنامی زبان کی منفرد خصوصیات کو دیکھتے ہوئے، بشمول اس کے لہجے اور لکھاوٹ، شناخت کا مسئلہ صرف حروف کو پڑھنے سے آگے بڑھ جاتا ہے۔ اس کے لیے ایک ایسے ماڈل کی ضرورت ہے جو سیاق و سباق کو جامع طور پر سمجھنے کے قابل ہو۔
حال ہی میں، CMC انسٹی ٹیوٹ آف اپلائیڈ ٹیکنالوجی (CMC ATI) نے CATI-VLM (بصری دستاویز کی تفہیم) ماڈل کا اعلان کیا – جسے اس کی تحقیقی ٹیم نے ایک بڑے 5TB ڈیٹا گودام سے تیار کیا ہے – جس نے بہت سے بین الاقوامی حریفوں کو پیچھے چھوڑتے ہوئے عالمی سطح پر ٹاپ 12 اور ویتنام میں ٹاپ 1 کی درجہ بندی میں جون Robustcument 2 میں شائع کیا ہے۔ بصری سوال کا جواب دینا (DocVQA) زمرہ۔
Robust Reading Competition (RRC) ایک باوقار سائنسی مقابلہ (https://rrc.cvc.uab.es/) ہے جس کا اہتمام کمپیوٹر ویژن سینٹر (CVC) Autònoma de Barcelona University (UAB) اسپین کے کمپیوٹر وژن کے میدان میں ایک عالمی شہرت یافتہ تحقیقی ادارہ ہے۔
2011 میں شروع کیا گیا، مقابلہ ہر سال بین الاقوامی کانفرنس آن ٹیکسٹ اینالیسس اینڈ ریکگنیشن (ICDAR) کے فریم ورک کے اندر منعقد کیا جاتا ہے – جو کمپیوٹر ویژن کے شعبے میں دنیا کے معروف فورمز میں سے ایک ہے۔ یہ مقابلہ یونیورسٹیوں، تحقیقی اداروں اور بڑے ٹیکنالوجی کارپوریشنز جیسے سنگھوا یونیورسٹی، ہنڈائی موٹر گروپ، اور ٹینسنٹ سے متعدد محققین اور انجینئرز کو اپنی طرف متوجہ کرتا ہے۔ RRC کے مسائل کو تکنیکی ترقی کو فروغ دینے کے لیے ڈیزائن کیا گیا ہے، جو ترجمہ اور انٹرپرائز ڈیٹا مینجمنٹ سے لے کر شہری تجزیہ اور تاریخی دستاویز کی پروسیسنگ تک کے عملی مسائل سے قریب سے جڑے ہوئے ہیں۔
CMC ATI کے ڈائریکٹر ڈاکٹر ڈانگ من ٹوان نے کہا: "ہمیں خوشی ہے کہ CMC ٹیم کی تحقیقی صلاحیتوں کی تصدیق RRC جیسے باوقار عالمی مقابلے کے ذریعے کی گئی ہے۔ بہت کم وقت میں، تحقیقی ٹیم نے ترقی یافتہ ممالک کے بڑے ناموں کے ساتھ بین الاقوامی مسابقت کا مظاہرہ کرتے ہوئے ایک اعلیٰ درجہ حاصل کیا ہے۔ مزید اہم بات یہ ہے کہ، یہ ہماری زبان کے مخصوص مسائل کو حل کرنے کے لیے واضح ثبوت ہے اور یہ واضح ہے کہ ہماری زبان کے مسائل کو حل کرنے کے لیے خصوصی مہارت حاصل ہے۔ ویتنام میں کھیت۔"
ڈاکٹر ڈانگ من ٹوان، سی ایم سی اے ٹی آئی کے ڈائریکٹر۔
CATI-VLM روایتی OCR سے اس لحاظ سے مختلف ہے کہ یہ نہ صرف حروف کو نکالتا ہے بلکہ معلومات کی متعدد پرتوں کو بھی سمجھتا ہے: متن کا مواد، غیر متنی عناصر (ٹک باکس، چیک باکس، چارٹ، دستخط، فارمولے)، لے آؤٹ (صفحہ کا ڈھانچہ، میزیں، فارم)، اور طرز (فونٹس، ہائی لائٹنگ، وغیرہ)۔ ماڈل ChatGPT کی طرح دستاویز کی تصاویر پر پوچھے گئے بصری سوالات کا جواب دے سکتا ہے، بغیر ہر مخصوص فارم کو پہلے سے سیکھنے کی ضرورت کے۔
خاص طور پر، RRC درجہ بندی پر، CATI-VLM نے، صرف 3 بلین پیرامیٹرز کے ساتھ، 7 میں سے 4 ڈیٹا سیٹس میں سب سے زیادہ درستگی حاصل کی، جس نے بہت سے بگ ٹیک ماڈلز جیسے Deepseek (27 بلین پیرامیٹرز)، GPT-4 Vision Turbo + Amazon Textract OCR (ٹاپ 34)، اور Baidu2 ٹاپ کو پیچھے چھوڑ دیا۔
یہ کامیابی ایک عملی نقطہ نظر کو بھی ظاہر کرتی ہے، جس میں بنیادی ٹیکنالوجیز میں مہارت حاصل کرنے اور ویتنام کے بنیادی ڈھانچے کے حالات کے مطابق ماڈلز کو بہتر بنانے پر توجہ مرکوز کی گئی ہے، بجائے اس کے کہ اسکیل ایبلٹی پیرامیٹرز کا پیچھا کیا جائے۔
یونیورسٹی کے داخلے کے درخواست فارم کی مثال
مندرجہ بالا تصویر میں لکھاوٹ سے متن کی شناخت کی گئی ہے۔
بورڈ کے چیئرمین اور CMC ٹیکنالوجی گروپ کے ایگزیکٹو چیئرمین جناب Nguyen Trung Chinh نے زور دیا: "یہ ٹیکنالوجی کی تحقیق اور ترقی (R&D) میں ایک دہائی سے زیادہ کی مسلسل سرمایہ کاری کا نتیجہ ہے۔ بین الاقوامی ٹیکنالوجی کے میدان میں CMC کی اعلیٰ کامیابیاں ویتنامی ٹیکنالوجی میں مہارت حاصل کرنے کی ہماری حکمت عملی کی توثیق کرتی ہیں، اس کے ساتھ ساتھ ویتنامی ٹیکنالوجی کی عالمی سطح پر مارکیٹ کی طرف ہماری واقفیت اور ویٹیلیگیشن کی طرف یقین ہے۔ عالمی ٹکنالوجی کے نقشے پر ایک قابل مقام بناتے ہوئے عالمی بگ ٹیک کے ساتھ مقابلہ کرنے کی پوری صلاحیت رکھتا ہے۔"
CATI-VLM کو مصنوعات کے C.OpenAI ماحولیاتی نظام میں لاگو کیا جائے گا، بشمول: قانونی دستاویزات کا جائزہ لینے کے لیے CLS ورچوئل اسسٹنٹ، CMC SmartDoc - ایک ڈیجیٹل دستاویز کی تبدیلی کا پلیٹ فارم، CMC KMS نالج مینجمنٹ سسٹم، سمارٹ آفسز کے لیے ایک خودکار رپورٹنگ سسٹم، اور اگلی نسل کے ایجنٹی دستاویزات کی ایپلی کیشنز۔
QUANG HUY
ماخذ: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






تبصرہ (0)