Koncem ledna společnost DeepSeek vzala svět technologií útokem vydáním dvou modelů LLM, které byly „na úrovni“ amerických produktů, ale stály zlomek jejich ceny. Mezi nimi i model uvažování s otevřeným zdrojovým kódem DeepSeek-R1, který dokáže vyřešit některé ze stejných vědeckých problémů jako o1, nejpokročilejší LLM od OpenAI.

Zatímco svět byl překvapen, domácí vědci uvedli, že tento úspěch byl zcela předvídatelný a v souladu s ambicí Pekingu stát se přední mocností v oblasti umělé inteligence (AI).

Yunji Chen, informatik z Ústavu počítačových technologií Čínské akademie věd, upozorňuje, že dříve či později se v Číně společnost jako DeepSeek objeví.

To je způsobeno obrovským množstvím investičního kapitálu, který proudí do společností zabývajících se rozvojem LLM, a počtem lidí s doktorskými tituly v oborech STEM (věda, technologie, inženýrství nebo matematika).

„Kdyby neexistoval DeepSeek, existovaly by jiné čínské programy LLM,“ řekl Chen.

Toto je prokázaný fakt. Několik dní po „zemětřesení“ v DeepSeeku vydala Alibaba svůj dosud nejpokročilejší LLM, Qwen2.5-Max, o kterém tvrdí, že překonává DeepSeek-V3.

Moonshot AI a ByteDance také oznámily nové inferenční modely, Kimi 1.5 a 1.5-pro, které v některých kalibračních testech dokáží překonat o1.

Vládní priority

V roce 2017 čínská vláda oznámila svůj záměr stát se do roku 2030 světovým lídrem v oblasti umělé inteligence. Čína si klade za cíl dokončit významné průlomy v oblasti umělé inteligence , „aby technologie a aplikace dosáhly světové úrovně“ do roku 2025.

Aby toho bylo možné dosáhnout, je hlavní prioritou rozvoj sítě talentů v oblasti umělé inteligence. Do roku 2022 čínské ministerstvo školství povolilo 440 univerzitám nabízet obory umělé inteligence, uvádí zpráva Centra pro bezpečnost a vznikající technologie (CSET) Georgetownské univerzity.

Ve stejném roce se Čína podílela na polovině nejlepších výzkumníků v oblasti umělé inteligence, zatímco USA pouze 18 %, uvádí konzultační společnost MacroPolo.

Deepseek Bloomberg
DeepSeek překvapuje řadou rozsáhlých, levných a vysoce výkonných jazykových modelů. Foto: Bloomberg

Marina Zhang, výzkumnice v oblasti politických věd na Technické univerzitě v Sydney, uvedla, že DeepSeek pravděpodobně těžil z vládních investic do vzdělávání a rozvoje talentů v oblasti umělé inteligence, včetně četných stipendií, výzkumných grantů a partnerství mezi akademickou obcí a průmyslem.

Například státem podporované iniciativy, jako je Národní inženýrská laboratoř pro technologie a aplikace hlubokého učení, vyškolily tisíce odborníků na umělou inteligenci.

Je těžké najít přesné údaje o počtu zaměstnanců DeepSeek, ale zakladatel Liang Wenfeng říká, že společnost najímá absolventy a výzkumníky z největších univerzit v zemi.

Někteří členové vedení jsou mladší 35 let a vyrůstali s vzestupem Číny jako technologické supervelmoci, řekl Zhang. „Jsou hluboce motivováni soběstačností v oblasti inovací.“

Devětatřicetiletý Wenfeng absolvoval informatiku na Univerzitě Zhejiang. Před téměř deseti lety spoluzaložil hedgeový fond High-Flyer a v roce 2023 založil společnost DeepSeek.

Národní politiky, které podporují modelový ekosystém pro umělou inteligenci, pomohou společnostem, jako je DeepSeek, přilákat jak finanční prostředky, tak i lidi, tvrdí Jacob Feldgoise, který studuje talenty v oblasti umělé inteligence v Číně na CSET.

Ale i přes nárůst kurzů umělé inteligence na univerzitách si Feldgoise není jistý, kolik studentů absolvuje s tituly v oboru umělé inteligence a zda se jim dostávají dovednosti, které firmy potřebují.

V posledních letech si čínské společnosti zabývající se umělou inteligencí stěžovaly, že absolventi těchto programů nesplňují jejich očekávání, což některé z nich vedlo ke spolupráci s univerzitami s cílem zlepšit kvalitu.

"Tvrzení"

Vědci tvrdí, že asi nejpůsobivějším prvkem úspěchu společnosti DeepSeek je to, že DeepSeek-R1 a Janus-Pro-7B vyvinuli navzdory vývozním omezením ze strany americké vlády, která od roku 2022 blokují přístup k pokročilým výpočetním čipům pro umělou inteligenci.

Podle Zhanga představuje DeepSeek výrazně čínský přístup k inovacím, který klade důraz na efektivitu tváří v tvář řadě omezení.

Startup společnosti Wenfeng uvádí, že k trénování DeepSeek-V3 použil přibližně 2 000 čipů Nvidia H800. Naproti tomu Llama 3.1 405B, sofistikovaný LLM, který společnost Meta vydala v červenci 2024, se spoléhal na více než 16 000 čipů Nvidia H100.

9násobný talent se dočkal zvláštní pozornosti čínského premiéra Li Čchianga 9násobný talent se dočkal zvláštní pozornosti čínského premiéra Li Čchianga

V příspěvku na WeChatu z roku 2022 společnost High-Flyer uvedla, že má 10 000 starších čipů Nvidia A100. „Problém, kterému čelíme, nikdy nebyly peníze, ale zákaz špičkových čipů,“ řekl Wenfeng čínským médiím v červenci 2024.

DeepSeek využívá řadu metod ke zvýšení efektivity svých modelů. Například implementuje architekturu Mixture of Experts (MoE), metodu strojového učení, která trénuje modely rychleji s menším počtem parametrů než tradiční techniky.

To pomáhá DeepSeeku trénovat model s menším počtem čipů, uvádí počítačový vědec Chang Xu z University of Sydney.

Další technikou je latentní pozornost s více hlavami (MLA), která modelu umožňuje ukládat více dat s menší pamětí.

Úspěchy DeepSeeku by mohly být „rozcestníkem“ pro země s ambicemi v oblasti umělé inteligence, které však postrádají finanční a hardwarové zdroje pro výcvik masivních LLM, uvedl Yanbo Wang, výzkumník v oblasti politických věd na Hongkongské univerzitě.

(Podle přírody, štěstí)

Zdroj: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html