DeepSeek снова прорывается

Компания DeepSeek анонсирует модель DeepSeek-OCR, которая использует визуальное восприятие в качестве средства сжатия для обработки больших документов с использованием в 20 раз меньшего количества токенов, чем при использовании традиционных методов.

ZNews•23/10/2025

Компания DeepSeek выпустила новую модель искусственного интеллекта, способную обрабатывать документы с использованием в 7-20 раз меньшего количества токенов, чем традиционные методы. Фото: The Verge .

По данным SCMP , компания DeepSeek выпустила новую многомодальную модель искусственного интеллекта (ИИ), способную обрабатывать большие и сложные документы со значительно меньшим количеством токенов — в 7-20 раз меньше, чем традиционные методы обработки текста.

Токены — это наименьшие единицы текста, обрабатываемые искусственным интеллектом. Сокращение количества токенов позволяет сэкономить вычислительные ресурсы и повысить эффективность модели ИИ.

Для достижения этой цели модель DeepSeek-OCR (оптическое распознавание символов) использовала визуальное восприятие как средство сжатия информации. Такой подход позволяет большим языковым моделям обрабатывать огромные объемы текста без пропорционального увеличения вычислительных затрат.

«С помощью DeepSeek-OCR мы продемонстрировали, что использование визуального восприятия для сжатия информации может привести к значительному уменьшению количества символов — в 7-20 раз для разных исторических периодов, что открывает многообещающие перспективы», — заявили в DeepSeek.

Согласно сообщению в блоге компании, DeepSeek-OCR состоит из двух основных компонентов: DeepEncoder и DeepSeek3B-MoE-A570M, который выступает в качестве декодера.

В числе прочих, DeepEncoder выступает в качестве основного механизма модели, помогая поддерживать низкий уровень активации при высоком разрешении входных данных, одновременно обеспечивая высокую степень сжатия для уменьшения количества токенов.

Декодер представляет собой модель «смешанных экспертов» (Mixture-of-Experts, MoE) с 570 миллионами параметров, задача которой — воспроизвести исходный текст. Архитектура MoE разделяет модель на подсети, каждая из которых специализируется на обработке определенного подмножества входных данных, оптимизируя производительность без необходимости активации всей модели.

В тесте OmniDocBench, оценивающем читаемость документов, DeepSeek-OCR превосходит такие известные модели распознавания текста, как GOT-OCR 2.0 и MinerU 2.0, при этом используя значительно меньше токенов.

Комментарий (0)