![]() |
DeepSeekは、従来の方法に比べて7~20分の1のトークンで文書を処理できる新しいAIモデルをリリースしました。写真: The Verge 。 |
SCMPによると、DeepSeekは、従来のテキスト処理方法に比べて大幅に少ないトークン(7~20倍)で大規模で複雑な文書を処理できる新しいマルチモーダル人工知能(AI)モデルをリリースしたという。
トークンは、AIが処理するテキストの最小単位です。トークンの数を減らすことで、計算コストを削減し、AIモデルの効率性を向上させることができます。
これを実現するために、DeepSeek-OCR(光学文字認識)モデルは、視覚認識を情報圧縮の手段として利用しました。このアプローチにより、大規模な言語モデルでも、計算コストの増加に比例することなく、膨大な量のテキストを処理できるようになります。
「DeepSeek-OCRを通じて、視覚認識を使用して情報を圧縮することで、さまざまな歴史的文脈の段階で7〜20倍の大幅なトークン削減を実現できることを実証し、有望な方向性を示しています」とDeepSeekは述べています。
同社のブログ投稿によると、DeepSeek-OCRはDeepEncoderとデコーダーとして機能するDeepSeek3B-MoE-A570Mという2つの主要コンポーネントで構成されている。
このモデルでは、DeepEncoder がコアツールとして機能し、高解像度の入力で低いアクティベーション レベルを維持しながら、強力な圧縮率を達成してトークンの数を削減するのに役立ちます。
その後、デコーダーは5億7000万のパラメータを持つMixture-of-Experts(MoE)モデルとなり、元のテキストを再構成します。MoEアーキテクチャは、モデルを入力データのサブセットの処理に特化したサブネットワークに分割し、モデル全体をアクティブ化することなくパフォーマンスを最適化します。
ドキュメントの読みやすさのベンチマークである OmniDocBench では、DeepSeek-OCR は、大幅に少ないトークンを使用しながら、GOT-OCR 2.0 や MinerU 2.0 などの主要な OCR モデルよりも優れたパフォーマンスを発揮します。
出典: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







コメント (0)