Tajemství DeepSeek: Čína otřásla světem šokem z umělé inteligence

Koncem ledna společnost DeepSeek vzala svět technologií útokem vydáním dvou modelů LLM, které byly „na úrovni“ amerických produktů, ale stály zlomek jejich ceny. Mezi nimi i model uvažování s otevřeným zdrojovým kódem DeepSeek-R1, který dokáže vyřešit některé ze stejných vědeckých problémů jako o1, nejpokročilejší LLM od OpenAI.

Zatímco svět byl překvapen, domácí vědci uvedli, že tento úspěch byl zcela předvídatelný a v souladu s ambicí Pekingu stát se přední mocností v oblasti umělé inteligence (AI).

Yunji Chen, informatik z Ústavu počítačových technologií Čínské akademie věd, upozorňuje, že dříve či později se v Číně společnost jako DeepSeek objeví.

To je způsobeno obrovským množstvím investičního kapitálu, který proudí do společností zabývajících se rozvojem LLM, a počtem lidí s doktorskými tituly v oborech STEM (věda, technologie, inženýrství nebo matematika).

„Kdyby neexistoval DeepSeek, existovaly by jiné čínské programy LLM,“ řekl Chen.

Toto je prokázaný fakt. Několik dní po „zemětřesení“ v DeepSeeku vydala Alibaba svůj dosud nejpokročilejší LLM, Qwen2.5-Max, o kterém tvrdí, že překonává DeepSeek-V3.

Moonshot AI a ByteDance také oznámily nové inferenční modely, Kimi 1.5 a 1.5-pro, které v některých kalibračních testech dokáží překonat o1.

Vládní priority

V roce 2017 čínská vláda oznámila svůj záměr stát se do roku 2030 světovým lídrem v oblasti umělé inteligence. Čína si klade za cíl dokončit významné průlomy v oblasti umělé inteligence , „aby technologie a aplikace dosáhly světové úrovně“ do roku 2025.

Aby toho bylo možné dosáhnout, je hlavní prioritou rozvoj sítě talentů v oblasti umělé inteligence. Do roku 2022 čínské ministerstvo školství povolilo 440 univerzitám nabízet obory umělé inteligence, uvádí zpráva Centra pro bezpečnost a vznikající technologie (CSET) Georgetownské univerzity.

Ve stejném roce se Čína podílela na polovině nejlepších výzkumníků v oblasti umělé inteligence, zatímco USA pouze 18 %, uvádí konzultační společnost MacroPolo.

Deepseek Bloomberg — DeepSeek překvapuje řadou rozsáhlých, levných a vysoce výkonných jazykových modelů. Foto: Bloomberg

Marina Zhang, výzkumnice v oblasti politických věd na Technické univerzitě v Sydney, uvedla, že DeepSeek pravděpodobně těžil z vládních investic do vzdělávání a rozvoje talentů v oblasti umělé inteligence, včetně četných stipendií, výzkumných grantů a partnerství mezi akademickou obcí a průmyslem.

Například státem podporované iniciativy, jako je Národní inženýrská laboratoř pro technologie a aplikace hlubokého učení, vyškolily tisíce odborníků na umělou inteligenci.

Je těžké najít přesné údaje o počtu zaměstnanců DeepSeek, ale zakladatel Liang Wenfeng říká, že společnost najímá absolventy a výzkumníky z největších univerzit v zemi.

Někteří členové vedení jsou mladší 35 let a vyrůstali s vzestupem Číny jako technologické supervelmoci, řekl Zhang. „Jsou hluboce motivováni soběstačností v oblasti inovací.“

Devětatřicetiletý Wenfeng absolvoval informatiku na Univerzitě Zhejiang. Před téměř deseti lety spoluzaložil hedgeový fond High-Flyer a v roce 2023 založil společnost DeepSeek.

Národní politiky, které podporují modelový ekosystém pro umělou inteligenci, pomohou společnostem, jako je DeepSeek, přilákat jak finanční prostředky, tak i lidi, tvrdí Jacob Feldgoise, který studuje talenty v oblasti umělé inteligence v Číně na CSET.

Ale i přes nárůst kurzů umělé inteligence na univerzitách si Feldgoise není jistý, kolik studentů absolvuje s tituly v oboru umělé inteligence a zda se jim dostávají dovednosti, které firmy potřebují.

V posledních letech si čínské společnosti zabývající se umělou inteligencí stěžovaly, že absolventi těchto programů nesplňují jejich očekávání, což některé z nich vedlo ke spolupráci s univerzitami s cílem zlepšit kvalitu.

"Tvrzení"

Vědci tvrdí, že asi nejpůsobivějším prvkem úspěchu společnosti DeepSeek je to, že DeepSeek-R1 a Janus-Pro-7B vyvinuli navzdory vývozním omezením ze strany americké vlády, která od roku 2022 blokují přístup k pokročilým výpočetním čipům pro umělou inteligenci.

Podle Zhanga představuje DeepSeek výrazně čínský přístup k inovacím, který klade důraz na efektivitu tváří v tvář řadě omezení.

Startup společnosti Wenfeng uvádí, že k trénování DeepSeek-V3 použil přibližně 2 000 čipů Nvidia H800. Naproti tomu Llama 3.1 405B, sofistikovaný LLM, který společnost Meta vydala v červenci 2024, se spoléhal na více než 16 000 čipů Nvidia H100.

9násobný talent se dočkal zvláštní pozornosti čínského premiéra Li Čchianga

V příspěvku na WeChatu z roku 2022 společnost High-Flyer uvedla, že má 10 000 starších čipů Nvidia A100. „Problém, kterému čelíme, nikdy nebyly peníze, ale zákaz špičkových čipů,“ řekl Wenfeng čínským médiím v červenci 2024.

DeepSeek využívá řadu metod ke zvýšení efektivity svých modelů. Například implementuje architekturu Mixture of Experts (MoE), metodu strojového učení, která trénuje modely rychleji s menším počtem parametrů než tradiční techniky.

To pomáhá DeepSeeku trénovat model s menším počtem čipů, uvádí počítačový vědec Chang Xu z University of Sydney.

Další technikou je latentní pozornost s více hlavami (MLA), která modelu umožňuje ukládat více dat s menší pamětí.

Úspěchy DeepSeeku by mohly být „rozcestníkem“ pro země s ambicemi v oblasti umělé inteligence, které však postrádají finanční a hardwarové zdroje pro výcvik masivních LLM, uvedl Yanbo Wang, výzkumník v oblasti politických věd na Hongkongské univerzitě.

(Podle přírody, štěstí)

Zdroj: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html