DeepSeek розповідає, як вони створюють недорогі моделі штучного інтелекту. Фото: Bloomberg . |
У дослідницькому звіті, опублікованому 15 травня, DeepSeek вперше поділилася подробицями про те, як вона створила одну з найпотужніших у світі систем штучного інтелекту з відкритим кодом за ціною, що значно менша за її конкурентів.
Дослідження під назвою «Огляд DeepSeek-V3: проблеми масштабування та роздуми про апаратне забезпечення для архітектур штучного інтелекту» підготовлене у співавторстві із засновником Ляном Веньфенгом. DeepSeek пояснює свій успіх паралельним проектуванням апаратного та програмного забезпечення, що є відмінним підходом порівняно з багатьма компаніями, які досі зосереджуються на незалежній оптимізації програмного забезпечення.
«DeepSeek-V3, навчений на 2048 графічних процесорах Nvidia H800, продемонстрував, як паралельне проектування може ефективно вирішувати проблеми, забезпечуючи ефективне навчання та логічний висновок у великих масштабах», – написала дослідницька група у звіті. DeepSeek та хедж-фонд High-Flyer накопичили чіпи H800, перш ніж США заборонили їх експорт до Китаю, починаючи з 2023 року.
Згідно зі статтею, дослідницька група DeepSeek добре усвідомлювала апаратні обмеження та непомірні витрати на навчання великих мовних моделей (LLM), базової технології, що лежить в основі чат-ботів, таких як ChatGPT від OpenAI. Тому вони впровадили низку технічних оптимізацій для збільшення продуктивності пам'яті, покращення зв'язку між чіпами та підвищення загальної ефективності інфраструктури штучного інтелекту.
Крім того, DeepSeek підкреслює роль архітектури змішаної експертної моделі (MoE). Це метод машинного навчання, який розділяє модель штучного інтелекту на підмережі, кожна з яких обробляє окрему частину вхідних даних і працює спільно для оптимізації результатів.
Міністерство освіти допомагає зменшити витрати на навчання та пришвидшити міркування. Цей метод зараз широко застосовується в китайській технологічній галузі, зокрема в останній моделі Qwen3 від Alibaba.
DeepSeek вперше привернула увагу, коли випустила свою базову модель V3 у грудні 2024 року та модель міркування R1 у січні. Ці продукти викликали ажіотаж на світовому ринку, сприяючи широкому падінню акцій технологій, пов'язаних зі штучним інтелектом.
Хоча DeepSeek останнім часом не розкривала жодних подальших планів, вона підтримує інтерес спільноти за допомогою регулярних звітів. Наприкінці березня компанія випустила незначне оновлення для DeepSeek-V3, а до кінця квітня вони непомітно запустили систему Prover-V2 для обробки математичних доказів.
Джерело: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Коментар (0)