Vietnam.vn - Nền tảng quảng bá Việt Nam

Обучение DeepSeek обходится дёшево, теперь вывод ещё дешевле

Исследователи из DeepSeek опубликовали новую экспериментальную модель, призванную значительно снизить стоимость вывода при использовании в длительных контекстах.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Исследователи из DeepSeek анонсировали новую экспериментальную модель под названием V3.2-exp, призванную значительно снизить стоимость вывода при использовании в длительных контекстных операциях.

DeepSeek анонсировал модель в посте на Hugging Face, а также разместил ссылку на научную статью на GitHub.

Важнейшая функция новой сложной модели называется DeepSeek Sparse Attention. По сути, система использует модуль, называемый «молниеносным индексатором», для приоритизации определённых фрагментов из контекстного окна.

DeepSeek анонсирует экономически эффективную модель вывода.

DeepSeek анонсирует экономически эффективную модель вывода.

Отдельная система, называемая «системой точного выбора токенов», затем выбирает из этих фрагментов конкретные токены для загрузки в ограниченное окно внимания модуля. В совокупности они позволяют моделям разреженного внимания работать с длинными фрагментами контекста при относительно небольшой нагрузке на сервер.

Для операций с длинным контекстом преимущества системы существенны. Предварительное тестирование DeepSeek показывает, что стоимость вызова простой функции вывода (API) в сценариях с длинным контекстом может быть снижена до половины.

Для создания более надежной оценки необходимы дополнительные испытания, но поскольку модель открыта и находится в свободном доступе на Hugging Face, пройдет совсем немного времени, прежде чем сторонние тесты смогут оценить утверждения, изложенные в статье.

dep.jpg

В отличие от других моделей чат-ботов на основе искусственного интеллекта, потребляющих много энергии, DeepSeek стремится сократить расходы на всех этапах — от обучения до эксплуатации.

Новая модель DeepSeek — одно из ряда недавних достижений, которые решают проблему стоимости вывода — по сути, стоимости сервера для запуска предварительно обученной модели ИИ по сравнению со стоимостью ее обучения.

В случае DeepSeek исследователи искали способы сделать базовую архитектуру трансформатора более эффективной и обнаружили, что необходимо внести значительные улучшения.

Базирующаяся в Китае компания DeepSeek — необычная фигура на рынке искусственного интеллекта, особенно для тех, кто рассматривает исследования в этой области как соревнование между США и Китаем. Ранее в этом году компания произвела фурор своей моделью R1, обученной преимущественно с помощью обучения с подкреплением, при значительно меньших затратах, чем у американских конкурентов.

Однако эта модель не смогла спровоцировать полномасштабную революцию в обучении ИИ, которую некоторые предсказывали, и в последующие месяцы компания постепенно сошла с ума.

Новый подход с «рассеянным вниманием» вряд ли вызовет такое же возмущение, как R1, но он все же может научить американских поставщиков услуг некоторым столь необходимым приемам, которые помогут снизить затраты на вывод.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Источник: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Комментарий (0)

No data
No data

Та же категория

Поля ветряных электростанций побережья Джиа-Лай, скрытые в облаках
Посетите рыбацкую деревню Ло-Дьеу в Джиа-Лай и посмотрите, как рыбаки «рисуют» клевер на море.
Слесарь превращает пивные банки в яркие фонарики середины осени
Потратьте миллионы на изучение флористики и обретите объединяющий опыт во время Фестиваля середины осени

Тот же автор

Наследство

;

Фигура

;

Бизнес

;

No videos available

Текущие события

;

Политическая система

;

Местный

;

Продукт

;