Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek vuelve a abrirse paso

DeepSeek anuncia el modelo DeepSeek-OCR que utiliza la percepción visual como medio de compresión para procesar documentos grandes con 20 veces menos tokens que los métodos tradicionales.

ZNewsZNews23/10/2025

DeepSeek lanza un nuevo modelo de IA que puede procesar documentos con entre 7 y 20 veces menos tokens que los métodos tradicionales. Foto: The Verge .

Según SCMP , DeepSeek ha lanzado un nuevo modelo de inteligencia artificial (IA) multimodal que es capaz de procesar documentos grandes y complejos con un número significativamente menor de tokens, entre 7 y 20 veces menos que los métodos tradicionales de procesamiento de texto.

Los tokens son las unidades de texto más pequeñas que procesa la IA. Reducir su número implica ahorrar costes computacionales y aumentar la eficiencia de un modelo de IA.

Para lograrlo, el modelo DeepSeek-OCR (reconocimiento óptico de caracteres) utilizó la percepción visual como medio de compresión de información. Este enfoque permite que los modelos de lenguaje de gran tamaño procesen grandes volúmenes de texto sin incurrir en un coste computacional proporcionalmente mayor.

“A través de DeepSeek-OCR, hemos demostrado que el uso de la percepción visual para comprimir información puede lograr reducciones significativas de tokens, de 7 a 20 veces para diferentes períodos de contexto histórico, lo que proporciona una dirección prometedora”, dijo DeepSeek.

Según la publicación del blog de la empresa, DeepSeek-OCR consta de dos componentes principales, el DeepEncoder y el DeepSeek3B-MoE-A570M, que actúa como decodificador.

Entre ellos, DeepEncoder actúa como el motor central del modelo, ayudando a mantener niveles de activación bajos bajo una entrada de alta resolución, al tiempo que logra una fuerte relación de compresión para reducir la cantidad de tokens.

El decodificador es entonces un modelo de Mezcla de Expertos (MoE) de 570 millones de parámetros, encargado de reproducir el texto original. La arquitectura MoE divide el modelo en subredes especializadas en procesar un subconjunto de los datos de entrada, optimizando el rendimiento sin necesidad de activar todo el modelo.

En OmniDocBench, un punto de referencia de legibilidad de documentos, DeepSeek-OCR supera a los principales modelos de OCR como GOT-OCR 2.0 y MinerU 2.0, al tiempo que utiliza muchos menos tokens.

Fuente: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


Kommentar (0)

No data
No data

Herencia

Cifra

Negocio

Los jóvenes viajan al noroeste para disfrutar de la temporada de arroz más hermosa del año.

Actualidad

Sistema político

Local

Producto