Vietnam.vn - Nền tảng quảng bá Việt Nam

Обучение DeepSeek обходится дёшево, теперь вывод ещё дешевле

Исследователи из DeepSeek опубликовали новую экспериментальную модель, призванную значительно снизить стоимость вывода при использовании в длительных контекстах.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Исследователи из DeepSeek анонсировали новую экспериментальную модель под названием V3.2-exp, призванную значительно снизить стоимость вывода при использовании в длительных контекстных операциях.

DeepSeek анонсировал модель в посте на Hugging Face, а также разместил ссылку на научную статью на GitHub.

Важнейшая функция новой сложной модели называется DeepSeek Sparse Attention. По сути, система использует модуль, называемый «молниеносным индексатором», для приоритизации определённых фрагментов из контекстного окна.

DeepSeek анонсирует экономически эффективную модель вывода.

DeepSeek анонсирует экономически эффективную модель вывода.

Отдельная система, называемая «системой точного выбора токенов», затем выбирает из этих фрагментов конкретные токены для загрузки в ограниченное окно внимания модуля. В совокупности они позволяют моделям разреженного внимания работать с длинными фрагментами контекста при относительно небольшой нагрузке на сервер.

Для операций с длинным контекстом преимущества системы существенны. Предварительное тестирование DeepSeek показывает, что стоимость вызова простой функции вывода (API) в сценариях с длинным контекстом может быть снижена до половины.

Для создания более надежной оценки необходимы дополнительные испытания, но поскольку модель открыта и находится в свободном доступе на Hugging Face, пройдет совсем немного времени, прежде чем сторонние тесты смогут оценить утверждения, изложенные в статье.

dep.jpg

В отличие от других моделей чат-ботов на основе искусственного интеллекта, потребляющих много энергии, DeepSeek стремится сократить расходы на всех этапах — от обучения до эксплуатации.

Новая модель DeepSeek — одно из ряда недавних достижений, которые решают проблему стоимости вывода — по сути, стоимости сервера для запуска предварительно обученной модели ИИ по сравнению со стоимостью ее обучения.

В случае DeepSeek исследователи искали способы сделать базовую архитектуру трансформатора более эффективной и обнаружили, что необходимо внести значительные улучшения.

Базирующаяся в Китае компания DeepSeek — необычная фигура на рынке искусственного интеллекта, особенно для тех, кто рассматривает исследования в этой области как соревнование между США и Китаем. Ранее в этом году компания произвела фурор своей моделью R1, обученной преимущественно с помощью обучения с подкреплением, при значительно меньших затратах, чем у американских конкурентов.

Однако эта модель не смогла спровоцировать полномасштабную революцию в обучении ИИ, которую некоторые предсказывали, и в последующие месяцы компания постепенно сошла с ума.

Новый подход с «рассеянным вниманием» вряд ли вызовет такое же возмущение, как R1, но он все же может научить американских поставщиков услуг некоторым столь необходимым приемам, которые помогут снизить затраты на вывод.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Источник: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Комментарий (0)

No data
No data

Та же тема

Та же категория

Полюбуйтесь прекрасными пейзажами Вьетнама в клипе Субина «Muc Ha Vo Nhan»
Кофейни с ранним рождественским декором способствуют резкому росту продаж, привлекая множество молодых людей.
Что особенного в острове, расположенном недалеко от морской границы с Китаем?
Ханой оживает: сезон цветов «зовет зиму» на улицы

Тот же автор

Наследство

Фигура

Бизнес

Ресторан под плодородным виноградным садом в Хошимине производит фурор, клиенты преодолевают большие расстояния, чтобы зарегистрироваться

Текущие события

Политическая система

Местный

Продукт