Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek розкриває свої секрети.

DeepSeek вперше розкрила, як завдяки одночасному проекту апаратного та програмного забезпечення вона створила провідну у світі модель штучного інтелекту з відкритим кодом за низькою ціною.

ZNewsZNews19/05/2025

DeepSeek розповідає, як вони створюють недорогі моделі штучного інтелекту. Фото: Bloomberg .

У дослідницькому звіті, опублікованому 15 травня, DeepSeek вперше поділилася подробицями про те, як вона створила одну з найпотужніших у світі систем штучного інтелекту з відкритим кодом за ціною, що значно менша за її конкурентів.

Дослідження під назвою «Огляд DeepSeek-V3: проблеми масштабування та роздуми про апаратне забезпечення для архітектур штучного інтелекту» підготовлене у співавторстві із засновником Ляном Веньфенгом. DeepSeek пояснює свій успіх паралельним проектуванням апаратного та програмного забезпечення, що є відмінним підходом порівняно з багатьма компаніями, які досі зосереджуються на незалежній оптимізації програмного забезпечення.

«DeepSeek-V3, навчений на 2048 графічних процесорах Nvidia H800, продемонстрував, як паралельне проектування може ефективно вирішувати проблеми, забезпечуючи ефективне навчання та логічний висновок у великих масштабах», – написала дослідницька група у звіті. DeepSeek та хедж-фонд High-Flyer накопичили чіпи H800, перш ніж США заборонили їх експорт до Китаю, починаючи з 2023 року.

Згідно зі статтею, дослідницька група DeepSeek добре усвідомлювала апаратні обмеження та непомірні витрати на навчання великих мовних моделей (LLM), базової технології, що лежить в основі чат-ботів, таких як ChatGPT від OpenAI. Тому вони впровадили низку технічних оптимізацій для збільшення продуктивності пам'яті, покращення зв'язку між чіпами та підвищення загальної ефективності інфраструктури штучного інтелекту.

Крім того, DeepSeek підкреслює роль архітектури змішаної експертної моделі (MoE). Це метод машинного навчання, який розділяє модель штучного інтелекту на підмережі, кожна з яких обробляє окрему частину вхідних даних і працює спільно для оптимізації результатів.

Міністерство освіти допомагає зменшити витрати на навчання та пришвидшити міркування. Цей метод зараз широко застосовується в китайській технологічній галузі, зокрема в останній моделі Qwen3 від Alibaba.

DeepSeek вперше привернула увагу, коли випустила свою базову модель V3 у грудні 2024 року та модель міркування R1 у січні. Ці продукти викликали ажіотаж на світовому ринку, сприяючи широкому падінню акцій технологій, пов'язаних зі штучним інтелектом.

Хоча DeepSeek останнім часом не розкривала жодних подальших планів, вона підтримує інтерес спільноти за допомогою регулярних звітів. Наприкінці березня компанія випустила незначне оновлення для DeepSeek-V3, а до кінця квітня вони непомітно запустили систему Prover-V2 для обробки математичних доказів.

Джерело: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Коментар (0)

Залиште коментар, щоб поділитися своїми почуттями!

У тій самій категорії

Того ж автора

Спадщина

Фігура

Бізнеси

Thời sự

Політична система

Місцевий

Продукт

Happy Vietnam
Найкрасивіша дорога у В'єтнамі

Найкрасивіша дорога у В'єтнамі

Мирний ранок

Мирний ранок

НОВИЙ ФЕСТИВАЛЬ РИСУ

НОВИЙ ФЕСТИВАЛЬ РИСУ