В своём отчёте DeepSeek сообщила, что общая стоимость обучения составила 5,576 млн долларов, в основном из-за стоимости аренды графических процессоров Nvidia. Компания также предупредила, что эта сумма отражает только «формальное обучение» и не включает расходы, связанные с предыдущими исследованиями или экспериментами с архитектурой, алгоритмами и данными. Это сразу же привлекло инвесторов и привело к тому, что мировые акции технологических компаний «испарились» на 1000 млрд долларов всего за один день, 27 января.
Действительно ли эксплуатационные расходы DeepSeek намного выше заявленных?
В отчёте исследовательской и консалтинговой компании SemiAnalysis, специализирующейся на полупроводниках, представлена иная точка зрения на затраты на разработку DeepSeek. Компания оценивает расходы DeepSeek на оборудование значительно выше заявленных, отмечая при этом значительные расходы на НИОКР и общую стоимость владения.
В SemiAnalysis заявили, что создание «синтетических данных» для обучения моделей потребует «значительных вычислительных мощностей». Кроме того, компаниям придётся экспериментировать, разрабатывать новые архитектуры, собирать и очищать данные, а также платить сотрудникам.
DeepSeek нужно 50 000 графических процессоров вместо чуть более 2 000?
Согласно расчётам экспертов, DeepSeek использует масштабную вычислительную систему, состоящую примерно из 50 000 графических процессоров Hopper, включая 10 000 графических процессоров H800 и 10 000 более мощных графических процессоров H100, а также дополнительные графические процессоры H20. Эта цифра противоречит предыдущему заявлению DeepSeek об использовании всего 2048 графических процессоров Nvidia. Общие капитальные затраты на сервер оцениваются примерно в 1,6 млрд долларов, а эксплуатационные расходы — до 944 млн долларов.
SemiAnalysis полагает, что DeepSeek использовал 50 000 графических процессоров Nvidia
Компания DeepSeek была основана в 2023 году Ляном Вэньфэном, соучредителем китайского хедж-фонда High-Flyer, специализирующегося на искусственном интеллекте. Стартап вырос из исследовательского подразделения фонда в области искусственного интеллекта в апреле 2023 года с целью разработки больших языковых моделей и создания искусственного интеллекта общего назначения (ИИ).
Интерес к DeepSeek возрос после выпуска компанией R1 — модели логического мышления, конкурирующей с o1 от OpenAI, но имеющей открытый исходный код, что позволяет любому разработчику ИИ использовать её. Однако, как и многие другие китайские чат-боты, DeepSeek имеет ограничения по определённым темам.
Генеральный директор OpenAI Сэм Альтман похвалил модель DeepSeek, отметив, что DeepSeek — «несомненно, отличная модель». Однако он также заявил, что есть доказательства того, что DeepSeek собирала данные OpenAI для работы в «дистиллированном» виде.
Источник: https://thanhnien.vn/chi-phi-phat-trien-deepseek-bi-tang-boc-185250203151508438.htm
Комментарий (0)