
ベトナムではデジタルトランスフォーメーションと人工知能アプリケーションの変革が盛んに行われており、OCRテクノロジー(光学式文字認識)は、文書のデジタル化、ビジネスプロセスの自動化、コストの削減、管理効率の向上においてますます重要な役割を果たしています。
しかし、アクセントや手書き文字のあるベトナム語の特性を考えると、認識の問題は「単語の読み取り」に留まらず、モデルが文脈を総合的に理解する能力を持つことが求められます。
この課題に直面して、 CMCテクノロジー アプリケーション インスティテュート ( CMC ATI) は、コンピューター ビジョン (Visual Document Understanding) を使用してドキュメントを理解するシステムである CATI-VLM モデルを開発しました。
最大5TBの大規模データウェアハウスをベースにしたこのモデルは、2025年6月に開催された国際ロバスト読解コンテスト(RRC)の文書ビジュアル質問回答(DocVQA)部門で、 世界トップ12、ベトナムトップ1にランクインしました。
出典: https://nhandan.vn/infographic-tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post892567.html
コメント (0)