Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek fait à nouveau une percée.

DeepSeek annonce le modèle DeepSeek-OCR qui utilise la perception visuelle comme moyen de compression pour traiter de grands documents avec 20 fois moins de jetons que les méthodes traditionnelles.

ZNewsZNews23/10/2025

DeepSeek a publié un nouveau modèle d'IA capable de traiter des documents avec 7 à 20 fois moins de jetons que les méthodes traditionnelles. Photo : The Verge .

Selon le SCMP , DeepSeek a publié un nouveau modèle d'intelligence artificielle (IA) multimodal capable de traiter des documents volumineux et complexes avec un nombre de jetons considérablement réduit (7 à 20 fois moins) que les méthodes de traitement de texte traditionnelles.

Les tokens sont les plus petites unités de texte traitées par l'IA. Réduire leur nombre permet de diminuer les coûts de calcul et d'améliorer l'efficacité du modèle d'IA.

Pour ce faire, le modèle DeepSeek-OCR (reconnaissance optique de caractères) utilise la perception visuelle comme moyen de compression de l'information. Cette approche permet aux grands modèles de langage de traiter d'énormes volumes de texte sans augmentation proportionnelle des coûts de calcul.

« Grâce à DeepSeek-OCR, nous avons démontré que l'utilisation de la perception visuelle pour compresser les informations peut permettre des réductions significatives du nombre de jetons — de 7 à 20 fois pour différentes étapes contextuelles historiques — offrant ainsi une voie prometteuse », a déclaré DeepSeek.

Selon l'article de blog de l'entreprise, DeepSeek-OCR se compose de deux éléments principaux : DeepEncoder et DeepSeek3B-MoE-A570M, qui fait office de décodeur.

Dans ce modèle, DeepEncoder joue le rôle d'outil central, contribuant à maintenir de faibles niveaux d'activation sous une entrée haute résolution tout en atteignant des taux de compression élevés pour réduire le nombre de jetons.

Le décodeur est ensuite un modèle de type « mélange d'experts » (MoE) comportant 570 millions de paramètres, chargé de reconstruire le texte original. L'architecture MoE divise le modèle en sous-réseaux spécialisés dans le traitement d'une partie des données d'entrée, optimisant ainsi les performances sans activer l'intégralité du modèle.

Sur OmniDocBench, un banc d'essai pour la lisibilité des documents, DeepSeek-OCR surpasse les principaux modèles OCR comme GOT-OCR 2.0 et MinerU 2.0, tout en utilisant beaucoup moins de jetons.

Source : https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


Comment (0)

Laissez un commentaire pour partager vos ressentis !

Même catégorie

Un lieu de divertissement de Noël fait sensation auprès des jeunes à Hô Chi Minh-Ville avec un pin de 7 mètres de haut.
Que se passe-t-il dans cette ruelle de 100 mètres qui fait tant parler d'elle à Noël ?
Émerveillé par le mariage somptueux qui s'est déroulé pendant 7 jours et 7 nuits à Phu Quoc
Défilé de costumes anciens : La joie des cent fleurs

Même auteur

Patrimoine

Chiffre

Entreprise

Don Den – Le nouveau « balcon suspendu » de Thai Nguyen attire les jeunes chasseurs de nuages

Actualités

Système politique

Locale

Produit