DeepSeekが再び躍進

DeepSeekは、従来の方法に比べて7～20分の1のトークンで文書を処理できる新しいAIモデルをリリースしました。写真： The Verge 。

SCMPによると、DeepSeekは、従来のテキスト処理方法に比べて大幅に少ないトークン（7～20倍）で大規模で複雑な文書を処理できる新しいマルチモーダル人工知能（AI）モデルをリリースしたという。

トークンは、AIが処理するテキストの最小単位です。トークンの数を減らすことで、計算コストを削減し、AIモデルの効率性を向上させることができます。

これを実現するために、DeepSeek-OCR（光学文字認識）モデルは、視覚認識を情報圧縮の手段として利用しました。このアプローチにより、大規模な言語モデルでも、計算コストの増加に比例することなく、膨大な量のテキストを処理できるようになります。

「DeepSeek-OCRを通じて、視覚認識を使用して情報を圧縮することで、さまざまな歴史的文脈の段階で7〜20倍の大幅なトークン削減を実現できることを実証し、有望な方向性を示しています」とDeepSeekは述べています。

同社のブログ投稿によると、DeepSeek-OCRはDeepEncoderとデコーダーとして機能するDeepSeek3B-MoE-A570Mという2つの主要コンポーネントで構成されている。

このモデルでは、DeepEncoder がコアツールとして機能し、高解像度の入力で低いアクティベーションレベルを維持しながら、強力な圧縮率を達成してトークンの数を削減するのに役立ちます。

その後、デコーダーは5億7000万のパラメータを持つMixture-of-Experts（MoE）モデルとなり、元のテキストを再構成します。MoEアーキテクチャは、モデルを入力データのサブセットの処理に特化したサブネットワークに分割し、モデル全体をアクティブ化することなくパフォーマンスを最適化します。

ドキュメントの読みやすさのベンチマークである OmniDocBench では、DeepSeek-OCR は、大幅に少ないトークンを使用しながら、GOT-OCR 2.0 や MinerU 2.0 などの主要な OCR モデルよりも優れたパフォーマンスを発揮します。

出典: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html