В конце января компания DeepSeek произвела фурор в мире технологий, выпустив две модели LLM, которые были «на уровне» американских продуктов, но стоили в разы дешевле. Среди них — модель рассуждений с открытым исходным кодом DeepSeek-R1, способная решать некоторые из тех же научных задач, что и o1, самая продвинутая модель LLM от OpenAI.

В то время как весь мир был удивлен, китайские исследователи заявили, что это достижение было вполне предсказуемым и соответствовало амбициям Пекина стать ведущей державой в области искусственного интеллекта (ИИ).

Юнджи Чэнь, специалист по информатике из Института компьютерных наук Китайской академии наук, отмечает, что рано или поздно в Китае появится компания, подобная DeepSeek.

Это объясняется огромным объемом инвестиций в компании, занимающиеся разработкой программ LLM, и большим количеством людей, имеющих докторскую степень в области STEM (естественные науки, технологии, инженерия или математика).

«Если бы не было DeepSeek, были бы другие китайские магистра права», — сказал Чэнь.

Это доказанный факт. Через несколько дней после «землетрясения» DeepSeek компания Alibaba выпустила свой самый продвинутый на сегодняшний день LLM, Qwen2.5-Max, который, по её утверждению, превосходит DeepSeek-V3.

Moonshot AI и ByteDance также анонсировали новые модели вывода Kimi 1.5 и 1.5-pro, которые могут превзойти o1 в некоторых тестах производительности.

Приоритеты правительства

В 2017 году правительство Китая объявило о намерении стать мировым лидером в области ИИ к 2030 году. Китай намерен завершить крупные прорывы в области ИИ , «чтобы технологии и приложения достигли передового мирового уровня» к 2025 году.

Для этого важнейшей задачей является развитие кадрового резерва в области ИИ. Согласно отчёту Центра безопасности и новых технологий (CSET) Джорджтаунского университета, к 2022 году Министерство образования Китая разрешило 440 университетам предлагать программы по ИИ.

По данным консалтинговой компании MacroPolo, в том же году на долю Китая пришлась половина ведущих исследователей в области ИИ, тогда как на долю США пришлось всего 18%.

deepseek bloomberg
DeepSeek удивляет серией крупных, недорогих и высокопроизводительных языковых моделей. Фото: Bloomberg

Марина Чжан, исследователь в области политических наук из Технологического университета Сиднея, заявила, что DeepSeek, вероятно, выиграла от государственных инвестиций в обучение и развитие талантов в области ИИ, включая многочисленные стипендии, исследовательские гранты и партнерские отношения между академическими кругами и промышленностью.

Например, поддерживаемые государством инициативы, такие как Национальная инженерная лаборатория технологий и приложений глубокого обучения, подготовили тысячи экспертов в области ИИ.

Точные данные о численности сотрудников DeepSeek найти сложно, но основатель компании Лян Вэньфэн рассказывает, что компания набирает выпускников и аспирантов крупнейших университетов страны.

Чжан отметил, что некоторым членам руководства меньше 35 лет, и они выросли на фоне становления Китая как технологической сверхдержавы. «Их глубоко мотивирует уверенность в собственных силах в инновациях».

39-летний Вэньфэн окончил Чжэцзянский университет по специальности «компьютерные науки». Почти десять лет назад он стал соучредителем хедж-фонда High-Flyer, а в 2023 году основал DeepSeek.

По словам Джейкоба Фельдгойза, изучающего таланты в области ИИ в Китае в CSET, национальная политика, способствующая созданию модельной экосистемы для ИИ, поможет таким компаниям, как DeepSeek, привлечь как финансирование, так и людей.

Но, несмотря на рост числа курсов по ИИ в университетах, Фелдгойз не знает, сколько студентов заканчивают обучение по специальности «ИИ» и обучают ли их навыкам, необходимым компаниям.

В последние годы китайские компании, занимающиеся разработкой программ искусственного интеллекта, жалуются, что выпускники этих программ не соответствуют их ожиданиям, что побуждает некоторые из них сотрудничать с университетами для повышения качества.

«Закалка»

По словам ученых, самым впечатляющим элементом успеха DeepSeek, пожалуй, является то, что они разработали DeepSeek-R1 и Janus-Pro-7B в условиях экспортного контроля правительства США, который с 2022 года блокирует доступ к передовым вычислительным чипам для ИИ.

По словам Чжана, DeepSeek представляет собой ярко выраженный китайский подход к инновациям, делающий акцент на эффективности в условиях множества ограничений.

Стартап Вэньфэна заявляет, что для обучения DeepSeek-V3 использовалось около 2000 чипов Nvidia H800. Для сравнения, Llama 3.1 405B, сложный LLM, выпущенный Meta в июле 2024 года, использовал более 16 000 чипов Nvidia H100.

9-кратный талант привлекает особое внимание премьер-министра Китая Ли Цяна 9-кратный талант привлекает особое внимание премьер-министра Китая Ли Цяна

В сообщении WeChat от 2022 года компания High-Flyer сообщила, что у неё есть 10 000 старых чипов Nvidia A100. «Проблема, с которой мы сталкиваемся, заключается не в деньгах, а в запрете на высокопроизводительные чипы», — заявил Вэньфэн китайским СМИ в июле 2024 года.

DeepSeek использует различные методы для повышения эффективности своих моделей. Например, он реализует архитектуру «Смесь экспертов» (MoE) — метод машинного обучения, который обучает модели быстрее и с меньшим количеством параметров, чем традиционные методы.

По словам Чан Сюй, специалиста по информатике из Сиднейского университета, это помогает DeepSeek обучать модели с меньшим количеством чипов.

Другой метод — многоголовое латентное внимание (MLA), которое позволяет модели хранить больше данных с меньшим объемом памяти.

По словам Янбо Вана, исследователя в области политических наук из Гонконгского университета, достижения DeepSeek могут стать «ориентиром» для стран, стремящихся к развитию ИИ, но не имеющих финансовых и аппаратных ресурсов для массового обучения LLM.

(По данным Nature, Fortune)

Источник: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html