![]() |
DeepSeek ha lanzado un nuevo modelo de IA capaz de procesar documentos con entre 7 y 20 veces menos tokens que los métodos tradicionales. Foto: The Verge . |
Según SCMP , DeepSeek ha lanzado un nuevo modelo de inteligencia artificial (IA) multimodal capaz de procesar documentos grandes y complejos con significativamente menos tokens (entre 7 y 20 veces menos) que los métodos tradicionales de procesamiento de texto.
Los tokens son las unidades de texto más pequeñas que procesa la IA. Reducir su número implica ahorrar costes computacionales y aumentar la eficiencia de un modelo de IA.
Para lograrlo, el modelo DeepSeek-OCR (reconocimiento óptico de caracteres) utilizó la percepción visual para comprimir la información. Este enfoque permite que los modelos lingüísticos de gran tamaño procesen grandes volúmenes de texto sin incurrir en costes computacionales proporcionalmente mayores.
“A través de DeepSeek-OCR, hemos demostrado que el uso de la percepción visual para comprimir información puede lograr reducciones significativas de tokens (de 7 a 20 veces para diferentes etapas contextuales históricas), lo que ofrece una dirección prometedora”, afirmó DeepSeek.
Según la publicación del blog de la empresa, DeepSeek-OCR consta de dos componentes principales: DeepEncoder y DeepSeek3B-MoE-A570M, que actúa como decodificador.
En este modelo, DeepEncoder actúa como la herramienta principal, ayudando a mantener niveles de activación bajos bajo una entrada de alta resolución mientras logra fuertes índices de compresión para reducir la cantidad de tokens.
Posteriormente, el decodificador es un modelo de Mezcla de Expertos (MoE) con 570 millones de parámetros, encargado de reconstruir el texto original. La arquitectura MoE divide el modelo en subredes especializadas en procesar un subconjunto de los datos de entrada, optimizando el rendimiento sin activar todo el modelo.
En OmniDocBench, un punto de referencia para la legibilidad de documentos, DeepSeek-OCR supera a los principales modelos de OCR como GOT-OCR 2.0 y MinerU 2.0, al tiempo que utiliza significativamente menos tokens.
Fuente: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







Kommentar (0)