В своем отчете DeepSeek заявила, что общая стоимость обучения составила 5,576 миллиона долларов, в основном из-за арендной платы за графические процессоры Nvidia. Компания также предупредила, что эта цифра отражает только «формальное обучение» и не включает затраты, связанные с предыдущими исследованиями или экспериментами в области архитектуры, алгоритмов и данных. Это немедленно привлекло внимание инвесторов и привело к падению акций мировых технологических компаний на 1 триллион долларов только 27 января.
Операционные расходы DeepSeek намного выше, чем они заявляют?
Теперь отчет исследовательской и консалтинговой компании SemiAnalysis, специализирующейся на полупроводниковых технологиях, предлагает иной взгляд на затраты на разработку DeepSeek. Компания оценивает расходы на оборудование DeepSeek значительно выше, чем заявлялось ранее, а также подчеркивает существенные затраты на исследования и разработки (НИОКР) и общую стоимость владения.
Компания SemiAnalysis утверждает, что создание «синтетических данных» для обучения моделей потребует «значительных вычислительных затрат». Кроме того, компаниям также потребуется тестировать и разрабатывать новые архитектуры, собирать и очищать данные, а также выплачивать заработную плату сотрудникам.
Действительно ли DeepSeek требует 50 000 графических процессоров вместо чуть более 2000?
По расчетам экспертов, DeepSeek использует крупномасштабную вычислительную систему, состоящую примерно из 50 000 графических процессоров Hopper, включая 10 000 H800 и 10 000 более мощных H100, а также дополнительные H20. Это противоречит предыдущему заявлению DeepSeek об использовании всего 2048 графических процессоров Nvidia. Общая капитальная стоимость серверов оценивается примерно в 1,6 миллиарда долларов, а эксплуатационные расходы составляют 944 миллиона долларов.
По данным SemiAnalysis, в DeepSeek было использовано 50 000 графических процессоров Nvidia.
Компания DeepSeek была основана в 2023 году Лян Вэньфэном, соучредителем High-Flyer, китайского хедж-фонда, специализирующегося на искусственном интеллекте. Стартап вырос из исследовательского подразделения фонда по ИИ в апреле 2023 года, его цель – разработка крупномасштабных языковых моделей и достижение общего искусственного интеллекта (AGI).
Интерес к DeepSeek возрос после выпуска компанией R1, модели логического мышления, конкурирующей с o1 от OpenAI, но предлагаемой в качестве открытого исходного кода, что позволяет любому разработчику ИИ использовать её. Однако, как и многие другие китайские чат-боты, DeepSeek также имеет ограничения по некоторым темам.
Генеральный директор OpenAI Сэм Альтман высоко оценил модель DeepSeek, подчеркнув, что это «безусловно, отличная модель». Однако он также заявил, что есть доказательства того, что DeepSeek собирала данные OpenAI для работы, используя метод «дистилляции».
Источник: https://thanhnien.vn/chi-phi-phat-trien-deepseek-bi-tang-boc-185250203151508438.htm






Комментарий (0)