![]() |
DeepSeek lance un nouveau modèle d'IA capable de traiter des documents avec 7 à 20 fois moins de jetons que les méthodes traditionnelles. Photo : The Verge . |
Selon SCMP , DeepSeek a publié un nouveau modèle d'intelligence artificielle (IA) multimodal capable de traiter des documents volumineux et complexes avec un nombre de jetons nettement inférieur, 7 à 20 fois inférieur aux méthodes de traitement de texte traditionnelles.
Les jetons sont les plus petites unités de texte traitées par l'IA. Réduire leur nombre permet de réduire les coûts de calcul et d'accroître l'efficacité d'un modèle d'IA.
Pour y parvenir, le modèle DeepSeek-OCR (reconnaissance optique de caractères) utilise la perception visuelle comme moyen de compression de l'information. Cette approche permet aux grands modèles linguistiques de traiter d'importants volumes de texte sans augmenter proportionnellement les coûts de calcul.
« Grâce à DeepSeek-OCR, nous avons démontré que l'utilisation de la perception visuelle pour compresser les informations peut permettre des réductions significatives du nombre de jetons - de 7 à 20 fois pour différentes périodes de contexte historique, offrant une direction prometteuse », a déclaré DeepSeek.
Selon le blog de la société, DeepSeek-OCR se compose de deux composants principaux, le DeepEncoder et le DeepSeek3B-MoE-A570M, qui agit comme un décodeur.
Parmi eux, DeepEncoder agit comme le moteur principal du modèle, aidant à maintenir de faibles niveaux d'activation sous une entrée haute résolution, tout en obtenant un taux de compression élevé pour réduire le nombre de jetons.
Le décodeur est alors un modèle Mixte d'Experts (MoE) de 570 millions de paramètres, chargé de reproduire le texte original. L'architecture MoE divise le modèle en sous-réseaux spécialisés dans le traitement d'un sous-ensemble des données d'entrée, optimisant ainsi les performances sans avoir à activer l'ensemble du modèle.
Sur OmniDocBench, un benchmark de lisibilité de documents, DeepSeek-OCR surpasse les principaux modèles OCR comme GOT-OCR 2.0 et MinerU 2.0, tout en utilisant beaucoup moins de jetons.
Source : https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Comment (0)