От генерального директора OpenAI Сэма Альтмана до ученого Google Эндрю Ына — самые блестящие умы мира в области искусственного интеллекта высоко оценивают подход DeepSeek к открытому исходному коду после того, как китайский стартап запустил две передовые модели искусственного интеллекта.

Компания из Ханчжоу поразила мировую индустрию искусственного интеллекта своей моделью рассуждений с открытым исходным кодом R1.

Выпущенная 20 января модель демонстрирует производительность, сравнимую с закрытыми моделями от OpenAI (разработчика ChatGPT), но, как утверждается, затраты на обучение значительно ниже.

deepseek wsj
Чат-бот на основе искусственного интеллекта, разработанный DeepSeek, получил миллионы загрузок по всему миру. Фото: WSJ

По данным DeepSeek, основополагающая модель большого языка DeepSeek V3 была выпущена несколько недель назад, а ее обучение обошлось всего в 5,5 млн долларов.

Заявление компании вызвало вопросы о том, не тратят ли технологические компании слишком много средств на графические чипы (GPU) для обучения искусственного интеллекта, что привело к распродаже акций соответствующих технологических компаний.

На прошлой неделе в рубрике «Спросите меня о чём угодно» на Reddit Альтман утверждал, что OpenAI неправ и что необходимо найти другой подход к открытому исходному коду.

Компания всегда придерживалась закрытого подхода, сохраняя в секрете такие детали, как конкретные методы обучения и энергозатраты своих моделей.

«Тем не менее, не все в OpenAI разделяют эту точку зрения», и «это не наш главный приоритет на данный момент», — признал генеральный директор OpenAI.

Эндрю Нг, основатель Google Brain и бывший главный научный сотрудник Baidu, заявил, что продукты DeepSeek и ее коллег показывают, что Китай быстро догоняет США в области ИИ.

«Когда ChatGPT был запущен в ноябре 2022 года, США значительно опережали Китай в области генеративного ИИ… но на самом деле этот разрыв быстро сокращался в течение последних двух лет», — написал он в X. «Благодаря таким китайским моделям, как Qwen, Kimi, InternVL и DeepSeek, Китай явно сокращает разрыв, а в таких областях, как генерация видео , были времена, когда Китай, казалось, опережал Китай».

Модель Qwen была разработана Alibaba, а Kimi и InternVL являются продуктами стартапа Moonshot AI и Shanghai AI Lab.

По словам г-на Нга, если США продолжат блокировать открытый исходный код, Китай будет доминировать в этой части цепочки поставок, и многие предприятия в конечном итоге перейдут к моделям, которые больше отражают китайские ценности, чем американские.

Ряд американских компаний планируют внедрить модель DeepSeek в свои продукты. Например, пользователи сервиса NIM от Nvidia получили доступ к модели R1 с прошлой недели, а Microsoft также поддерживает R1 в своём облаке Azure и GitHub. Amazon позволяет клиентам разрабатывать приложения с использованием R1 через AWS.

Однако некоторые эксперты также считают, что успех DeepSeek не стоит преувеличивать. Главный специалист Meta по искусственному интеллекту Янн Лекун заявил, что идея о том, что «Китай превзойдёт США в области искусственного интеллекта» благодаря DeepSeek, ошибочна.

Напротив, «модели с открытым исходным кодом превосходят проприетарные модели», — написал он в Threads.

DeepSeek — стартап, отделившийся в мае 2023 года от хедж-фонда High-Flyer его основателя Ляна Вэньфэна — по-прежнему сталкивается со скептицизмом относительно его реальных затрат и методов обучения моделей ИИ.

Профессор компьютерных наук Университета Фудань Чжэн Сяоцин отметил, что в стоимость обучения DeepSeek V3 не входят расходы, связанные с тестированием и исследованиями, говорится в техническом отчете стартапа.

По его словам, успех DeepSeek обусловлен «технической оптимизацией», поэтому он не оказывает существенного влияния на закупки или поставки чипов.

(По данным SCMP)