1月下旬、DeepSeekは、米国製品と「同等」でありながら価格がはるかに安い2つのLLMモデルをリリースし、世界のテクノロジー界に旋風を巻き起こしました。そのうちのオープンソース推論モデルDeepSeek-R1は、OpenAIの最先端LLMであるo1と同じ科学的問題の一部を解くことができます。

世界が驚いた一方で、国内の研究者らは、この成果は完全に予測可能であり、人工知能(AI)の主導的大国になるという北京の野望と一致していると述べた。

中国科学院コンピュータ科学研究所のコンピュータ科学者、ユンジ・チェン氏は、遅かれ早かれDeepSeekのような企業が中国にも現れるだろうと指摘している。

これは、LLM開発企業に注ぎ込まれる巨額の投資資本と、STEM(科学、技術、工学、数学)分野の博士号取得者の数の増加によるものです。

「DeepSeekがなかったら、他の中国LLMが存在しただろう」とチェン氏は語った。

これは証明された事実です。DeepSeekの「地震」から数日後、アリババはこれまでで最も先進的なLLMであるQwen2.5-Maxをリリースしました。同社は、これがDeepSeek-V3よりも優れた性能を発揮すると主張しています。

Moonshot AIとByteDanceは、いくつかのベンチマークテストでo1を上回るパフォーマンスを発揮できる新しい推論モデル、Kimi 1.5と1.5-proも発表しました。

政府の優先事項

中国政府は2017年、2030年までにAI分野で世界をリードする国になるという意向を発表しました。中国は2025年までにAIにおける大きな進歩を達成し、「技術と応用が世界をリードするレベルに到達する」ことを目指しています。

そのためには、AI人材の育成が最優先事項です。ジョージタウン大学セキュリティ・新興技術センター(CSET)の報告書によると、中国教育部は2022年までに440の大学にAI専攻の提供を認可する予定です。

コンサルタント会社マクロポロによれば、同年、中国はトップクラスのAI研究者の半数を占め、米国はわずか18%だった。

ディープシーク ブルームバーグ
DeepSeekは、大規模で低コスト、かつ高性能な言語モデルシリーズで人々を驚かせた。写真:ブルームバーグ

シドニー工科大学の政策科学研究者、マリーナ・チャン氏は、ディープシークは、多数の奨学金、研究助成金、産学連携など、AIの訓練と人材育成に対する政府の投資の恩恵を受けている可能性が高いと述べた。

たとえば、国立深層学習技術・応用研究所のような政府支援の取り組みにより、何千人もの AI 専門家が育成されました。

DeepSeekの従業員数に関する正確な数字を見つけるのは難しいが、創業者のLiang Wenfeng氏によると、同社は国内最大規模の大学の卒業生や博士課程の学生を採用しているという。

張氏は、経営陣の一部は35歳未満で、中国がテクノロジー大国として台頭する中で成長してきたと述べた。 「彼らはイノベーションにおける自立に強い意欲を持っています。」

39歳のウェンフェン氏は浙江大学でコンピュータサイエンスの学位を取得。約10年前にヘッジファンド「ハイフライヤー」の共同創業者となり、2023年にはディープシークを設立した。

CSETで中国のAI人材を研究するジェイコブ・フェルドゴイス氏によると、AIのモデルエコシステムを促進する国家政策は、ディープシークのような企業が資金と人材の両方を引き付けるのに役立つという。

しかし、大学でのAIコースの増加にもかかわらず、AI関連の学位を取得して卒業する学生がどれくらいいるのか、また、企業が必要とするスキルが教えられているのかどうかについては、フェルドゴイス氏は不明だ。

近年、中国のAI企業は、これらのプログラムの卒業生が期待に応えていないと不満を訴えており、一部の企業は大学と提携して質の向上に取り組んでいる。

「焼き入れ」

科学者らによると、ディープシークの成功の最も印象的な要素は、2022年以来高度なAIコンピューティングチップへのアクセスをブロックしてきた米国政府の輸出規制の状況下で、ディープシーク-R1とJanus-Pro-7Bを開発したことだという。

張氏によると、DeepSeek は多くの制約に直面しながらも効率性を重視した、革新に対する中国独自のアプローチを体現しているという。

ウェンフェン氏のスタートアップは、DeepSeek-V3の学習に約2,000個のNvidia H800チップを使用したと述べている。対照的に、Metaが2024年7月にリリースした高度なLLMであるLlama 3.1 405Bは、16,000個以上のNvidia H100チップを使用していた。

9xの才能が中国の李強首相から特別な注目を集める 9xの才能が中国の李強首相から特別な注目を集める

2022年のWeChat投稿で、ハイフライヤーはNVIDIAの旧型A100チップを1万個保有していると述べた。 「私たちが直面している問題はお金ではなく、ハイエンドチップの禁止です」と、ウェンフェン氏は2024年7月に中国メディアに語った。

DeepSeekは、モデルの効率性を高めるために様々な手法を採用しています。例えば、従来の手法よりも少ないパラメータでモデルをより高速にトレーニングできる機械学習手法であるMixture of Experts(MoE)アーキテクチャを実装しています。

シドニー大学のコンピューター科学者チャン・シュー氏によると、これはDeepSeekがより少ないチップでモデルをトレーニングするのに役立つという。

もう 1 つの手法は、マルチヘッド潜在的注意 (MLA) です。これにより、モデルはより少ないメモリでより多くのデータを保存できます。

香港大学の政策科学研究者、ヤンボ・ワン氏は、ディープシークの成果は、AIへの野望を持ちながらも、大規模な法学修士(LLM)を養成するための資金やハードウェア資源が不足している国々にとって「道標」となる可能性があると述べた。

(自然と運命によれば)

出典: https://vietnamnet.vn/cach-trung-quoc-tao-ra-deepseek-va-rung-chuyen-the-gioi-2391114.html