![]() |
A DeepSeek lançou um novo modelo de IA capaz de processar documentos com 7 a 20 vezes menos tokens do que os métodos tradicionais. Foto: The Verge . |
Segundo o SCMP , a DeepSeek lançou um novo modelo de inteligência artificial (IA) multimodal capaz de processar documentos grandes e complexos com um número significativamente menor de tokens — de 7 a 20 vezes menos — do que os métodos tradicionais de processamento de texto.
Os tokens são as menores unidades de texto que a IA processa. Reduzir o número de tokens significa economizar custos computacionais e aumentar a eficiência de um modelo de IA.
Para alcançar esse objetivo, o modelo DeepSeek-OCR (reconhecimento óptico de caracteres) utilizou a percepção visual como meio de comprimir informações. Essa abordagem permite que grandes modelos de linguagem processem volumes massivos de texto sem incorrer em custos computacionais proporcionalmente maiores.
“Por meio do DeepSeek-OCR, demonstramos que o uso da percepção visual para comprimir informações pode alcançar reduções significativas no número de tokens — de 7 a 20 vezes para diferentes estágios contextuais históricos — oferecendo uma direção promissora”, afirmou a DeepSeek.
De acordo com a publicação no blog da empresa, o DeepSeek-OCR consiste em dois componentes principais: o DeepEncoder e o DeepSeek3B-MoE-A570M, que atua como decodificador.
Neste modelo, o DeepEncoder atua como ferramenta principal, ajudando a manter baixos níveis de ativação sob entradas de alta resolução, ao mesmo tempo que alcança altas taxas de compressão para reduzir o número de tokens.
Em seguida, o decodificador é um modelo de Mistura de Especialistas (MoE) com 570 milhões de parâmetros, encarregado de reconstruir o texto original. A arquitetura MoE divide o modelo em sub-redes que se especializam no processamento de um subconjunto dos dados de entrada, otimizando o desempenho sem ativar o modelo inteiro.
No OmniDocBench, um benchmark para legibilidade de documentos, o DeepSeek-OCR supera os principais modelos de OCR, como o GOT-OCR 2.0 e o MinerU 2.0, utilizando um número significativamente menor de tokens.
Fonte: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







Comentário (0)