Vietnam.vn - Nền tảng quảng bá Việt Nam

Навчання DeepSeek дешеве, тепер є ще дешевший висновок

Дослідники з DeepSeek опублікували нову експериментальну модель, розроблену для значного зниження вартості логічного висновку при використанні в довгих контекстах.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống03/10/2025

Дослідники з DeepSeek анонсували нову експериментальну модель під назвою V3.2-exp, розроблену для значного зниження вартості логічного висновку під час використання в операціях з довгим контекстом.

DeepSeek анонсував модель у дописі на Hugging Face, а також опублікував посилання на академічну статтю на GitHub.

Найважливішою особливістю нової складної моделі є DeepSeek Sparse Attention. По суті, система використовує модуль під назвою «індексатор блискавки» для визначення пріоритетів певних уривків з контекстного вікна.

DeepSeek анонсує економічно ефективну модель логічного висновку.

DeepSeek анонсує економічно ефективну модель логічного висновку.

Окрема система під назвою «система тонкозернистого вибору токенів» потім вибирає певні токени з цих фрагментів для завантаження у вікно обмеженої уваги модуля. Разом вони дозволяють моделям розрідженої уваги працювати з довгими фрагментами контексту з відносно невеликим навантаженням на сервер.

Для операцій з довгим контекстом переваги системи є значними. Попереднє тестування DeepSeek показує, що вартість простого виклику функції виводу (API) може бути зменшена до половини в сценаріях з довгим контекстом.

Для створення більш надійної оцінки необхідні подальші тестування, але оскільки модель є відкритою та вільно доступною на Hugging Face, незабаром сторонні тести зможуть оцінити твердження, викладені в статті.

відст.jpg

На відміну від інших моделей чат-ботів зі штучним інтелектом, які споживають багато енергії, DeepSeek йде шляхом економії витрат, починаючи від навчання і закінчуючи експлуатацією.

Нова модель DeepSeek є однією з серії нещодавніх проривів, що вирішують проблему вартості логічного висновку — по суті, вартості сервера для запуску попередньо навченої моделі штучного інтелекту, на відміну від вартості її навчання.

У випадку DeepSeek дослідники шукали способи зробити базову архітектуру трансформатора ефективнішою — і виявили, що необхідно внести значні покращення.

Китайська компанія DeepSeek є незвичною фігурою в ажіотажі штучного інтелекту, особливо для тих, хто розглядає дослідження в галузі штучного інтелекту як конкуренцію між США та Китаєм. Компанія справила фурор на початку цього року зі своєю моделлю R1, яка навчається переважно за допомогою навчання з підкріпленням за значно нижчою ціною, ніж її конкуренти зі США.

Однак, модель не змогла спровокувати повномасштабну революцію в навчанні ШІ, яку деякі передбачали, і компанія поступово відійшла від уваги в наступні місяці.

Новий підхід «розрідженої уваги» навряд чи викличе стільки ж обурення, як R1, але він все ж може навчити американських постачальників послуг деяким необхідним хитрощам, які допоможуть знизити витрати на логічний висновок.

https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/

Джерело: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html


Коментар (0)

No data
No data

У тій самій темі

У тій самій категорії

Четвертий раз чітко бачу гору Ба Ден, і це рідко трапляється з Хошиміну.
Насолоджуйтесь прекрасними краєвидами В'єтнаму у фільмі "Muc Ha Vo Nhan" гурту Soobin.
Кав'ярні з ранніми різдвяними прикрасами збільшують продажі, приваблюючи багатьох молодих людей
Що особливого на острові поблизу морського кордону з Китаєм?

Того ж автора

Спадщина

Фігура

Бізнес

Милування національними костюмами 80 красунь, які змагалися у конкурсі "Міс Інтернешнл 2025" у Японії

Поточні події

Політична система

Місцевий

Продукт