![]() |
Компания DeepSeek выпустила новую модель искусственного интеллекта, способную обрабатывать документы с использованием в 7-20 раз меньшего количества токенов, чем традиционные методы. Фото: The Verge . |
По данным SCMP , компания DeepSeek выпустила новую многомодальную модель искусственного интеллекта (ИИ), способную обрабатывать большие и сложные документы со значительно меньшим количеством токенов — в 7-20 раз меньше, чем традиционные методы обработки текста.
Токены — это наименьшие единицы текста, обрабатываемые искусственным интеллектом. Сокращение количества токенов позволяет сэкономить вычислительные ресурсы и повысить эффективность модели ИИ.
Для достижения этой цели модель DeepSeek-OCR (оптическое распознавание символов) использовала визуальное восприятие как средство сжатия информации. Такой подход позволяет большим языковым моделям обрабатывать огромные объемы текста без пропорционального увеличения вычислительных затрат.
«С помощью DeepSeek-OCR мы продемонстрировали, что использование визуального восприятия для сжатия информации может привести к значительному уменьшению количества символов — в 7-20 раз для разных исторических периодов, что открывает многообещающие перспективы», — заявили в DeepSeek.
Согласно сообщению в блоге компании, DeepSeek-OCR состоит из двух основных компонентов: DeepEncoder и DeepSeek3B-MoE-A570M, который выступает в качестве декодера.
В числе прочих, DeepEncoder выступает в качестве основного механизма модели, помогая поддерживать низкий уровень активации при высоком разрешении входных данных, одновременно обеспечивая высокую степень сжатия для уменьшения количества токенов.
Декодер представляет собой модель «смешанных экспертов» (Mixture-of-Experts, MoE) с 570 миллионами параметров, задача которой — воспроизвести исходный текст. Архитектура MoE разделяет модель на подсети, каждая из которых специализируется на обработке определенного подмножества входных данных, оптимизируя производительность без необходимости активации всей модели.
В тесте OmniDocBench, оценивающем читаемость документов, DeepSeek-OCR превосходит такие известные модели распознавания текста, как GOT-OCR 2.0 и MinerU 2.0, при этом используя значительно меньше токенов.
Источник: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html











Комментарий (0)