DeepSeek рассказывает, как им удалось создать дешевую модель ИИ. Фото: Bloomberg . |
В исследовательском отчете, опубликованном 15 мая, компания DeepSeek впервые поделилась подробностями о том, как ей удалось создать одну из самых мощных в мире систем искусственного интеллекта с открытым исходным кодом, затратив при этом всего лишь малую часть средств, необходимых ее конкурентам.
Соавтором исследования под названием «Взгляд на DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ» выступил основатель компании Лян Вэньфэн. DeepSeek связывает свой успех с параллельной разработкой аппаратного и программного обеспечения. Это необычный шаг в контексте того, что многие компании по-прежнему сосредоточены на оптимизации независимого программного обеспечения.
«DeepSeek-V3, обученный на 2048 графических процессорах Nvidia H800, продемонстрировал, как параллельная разработка может эффективно решать эти проблемы, обеспечивая эффективное обучение и вывод в больших масштабах», — написала команда в статье. DeepSeek и хедж-фонд High-Flyer запаслись чипами серии H800 до того, как США запретили их экспорт в Китай в 2023 году.
Согласно статье, команда DeepSeek хорошо осведомлена об ограничениях оборудования, а также о «чрезмерных затратах» на обучение больших языковых моделей (LLM), базовой технологии, лежащей в основе чат-ботов, таких как ChatGPT от OpenAI. В результате они реализовали ряд технических оптимизаций, которые повысили производительность памяти, улучшили связь между чипами и повысили эффективность всей инфраструктуры ИИ.
Кроме того, DeepSeek подчеркивает роль архитектуры модели эксперта (MoE). Это метод машинного обучения, который разделяет модель ИИ на подсети, каждая из которых обрабатывает отдельную часть входных данных и работает совместно для оптимизации результата.
MoE помогает сократить расходы на обучение и ускорить процесс вывода. Этот метод в настоящее время широко применяется в китайской технологической отрасли, включая последнюю модель Qwen3 от Alibaba.
Компания DeepSeek попала в заголовки газет, когда в декабре 2024 года выпустила свою базовую модель V3, а в январе — модель рассуждений R1. Эти продукты вызвали ажиотаж на мировых рынках, способствуя резкому падению акций компаний, занимающихся технологиями ИИ.
Несмотря на то, что в последнее время компания не раскрывала никаких дальнейших планов, DeepSeek поддерживает интерес сообщества, публикуя регулярные отчеты. В конце марта компания выпустила небольшое обновление DeepSeek-V3, а в конце апреля без лишнего шума запустила систему Prover-V2 для математической обработки доказательств.
Источник: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
Комментарий (0)