ベトナムにおけるデジタルトランスフォーメーションと人工知能(AI)アプリケーションの革命という革命においてioCR、業務プロセスの自動化、コスト削減、そして経営効率の向上において重要な役割を担っています。
CMC応用テクノロジー研究所(CMC ATI)は、研究チームが5TBの大規模データウェアハウスから開発したCATI-VLM(Visual Document Understanding)モデルを発表しました。このモデルは、2025年6月にRobust Reading Competition(RRC)が発表した単独のランキングで、Document Visual Question Answering(DocVQA)部門において、多くの国際競争相手を上回り、世界トップ12、ベトナムトップ1にランクインしました。
Robust Reading Competition (RRC) は、コンピューターコンタクト (UAB) のコンピュータービジョンセンター (CVC) が主催する、限りある科学コンテストです (https://rrc.cvc.uab.es/)。
このコンテストは2011年に開始され、コンピュータビジョン分野における世界有数のフォーラムの一つである国際テキスト分ICDARこのコンテストには、清華大学、現代自動車グループ、テンセントなどの大学、研究機関、大手テクノロジー企業から多くの研究者やエンジニアが参加しています。RRCの課題は、翻訳、企業データ管理、都市分析、歴史文書処理といった実用的な問題と密接に、技術の進歩を促進することを目的として設計されています。
「CMCチームの研究能力が、RRCのような国際舞台で認められたことを大変残念に思います。研究チームはとりあえず高い評価を獲得し、先進国の著名人にも取られない国際競争力を示しました。さらに重要なのは、これはベトナム特有の問題やベトナムの専門分野を解決するための技術を集約する能力を明確に示したものであるということです。」

CATI-VLMは、文字抽出だけでなく、テキストコンテンツ、非テキスト要素(チェックボックス、グラフ、断数式)、レイアウト(ページ構造、表、フォーム)、スタイル(フォント、ハイライトなど)といった多層的な情報を理解するという点で、従来のOCRとは異なります。
特に、RRCランキングでは、わずか30億のパラメータを持つCATI-VLMが4/7のデータセットで最高の精度を達成し、Deepseek(270億のパラメータ)、GPT-4 Vision Turbo + Amazon Textract OCR(トップ34)、Baidu(トップ22)など多くの大手テックモデルを上回りました。
この成果は、パラメータスケールを追うのではなく、コア技術の習得とベトナムのインフラ条件に適したモデルの最適化を重視した実践的なアプローチを示しています。


CMCテクノロジーグループの取締役会長兼執行チェアであるグエン・チュン・チン氏は、「これは10年以上にわたる技術研究開発(R&D)への継続的な投資の成果です。国際的なテクノロジーの舞台におけるCMCの高い成果は、ベトナムの技術を習得し、AI変革を志向し、世界市場への参入を目指すという戦略を裏付けしています。ベトナムのインテリジェンスは、世界の大手テクノロジー私たち築く能力を十分に備えていると確信しています」と強調しました。
CATI-VLM は、C.OpenAI法のドキュメントを確認するためのCMC SmartDoc、CMC KMS Agentic Documents アプリケーションが含まれています。
出典: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
コメント (0)