Заявление DeepSeek, самого популярного китайского стартапа последних дней, о создании ИИ на уровне OpenAI всего за 5 миллионов долларов США, вызвало скептицизм.
DeepSeek активно освещался в газетах и социальных сетях в начале года Змеи и вызвал сильные потрясения на мировом фондовом рынке.
Однако в недавнем отчете финансовой консалтинговой компании Bernstein содержится предупреждение о том, что, несмотря на впечатляющие достижения, заявление OpenAI о создании системы искусственного интеллекта, сопоставимой с ее собственной, всего за 5 миллионов долларов является неточным.
По словам Бернстайна, заявление DeepSeek вводит в заблуждение и не отражает общую картину.
«Мы считаем, что DeepSeek не «создала OpenAI за 5 миллионов долларов»; модели великолепны, но мы не думаем, что они волшебные; а паника на выходных кажется преувеличенной», — говорится в отчете.
DeepSeek разрабатывает две основные модели ИИ: DeepSeek-V3 и DeepSeek R1. Большая языковая модель V3 использует архитектуру MOE, объединяя меньшие модели для достижения высокой производительности при использовании меньших вычислительных ресурсов, чем традиционные модели.
С другой стороны, модель V3 имеет 671 миллиард параметров, из которых 37 миллиардов параметров активны в любой момент времени, включая такие инновации, как MHLA для сокращения использования памяти и использование FP8 для большей эффективности.
Обучение модели V3 потребовало кластера из 2048 графических процессоров Nvidia H800 в течение двух месяцев, что эквивалентно 5,5 миллионам часов работы графического процессора. Хотя некоторые оценки оценивают стоимость обучения примерно в 5 миллионов долларов, в отчете Бернстайна подчеркивается, что эта цифра относится только к вычислительным ресурсам и не учитывает значительные затраты, связанные с исследованиями, тестированием и другими расходами на разработку.
Модель DeepSeek R1 основана на V3 с использованием обучения с подкреплением (RL) и других методов для обеспечения вывода.
Модель R1 может конкурировать с моделями OpenAI в задачах рассуждения. Однако Бернстайн отмечает, что разработка R1 потребовала значительных ресурсов, хотя это и не было подробно описано в отчете DeepSeek.
Комментируя DeepSeek, Бернстайн отметил впечатляющие модели. Например, модель V3 работает так же хорошо или лучше, чем другие основные языковые модели в языках, программировании и математике, требуя при этом меньше ресурсов.
Процесс предварительной подготовки V3 потребовал всего 2,7 миллиона часов работы графического процессора, или 9% вычислительных ресурсов некоторых других ведущих моделей.
Хотя прогресс DeepSeek заметен, заключает Бернстайн, стоит опасаться преувеличенных заявлений. Идея создания конкурента OpenAI всего за 5 миллионов долларов кажется ошибочной.
(По данным Times of India)
Источник: https://vietnamnet.vn/deepseek-khong-the-lam-ai-tuong-duong-openai-voi-5-trieu-usd-2367340.html
Комментарий (0)