DeepSeek se na začátku Roku hada dočkal rozsáhlého mediální pokrytí a pokrytí na sociálních sítích, což způsobilo značné otřesy na globálních akciových trzích.

Nedávná zpráva finančně poradenské firmy Bernstein však varuje, že navzdory působivým úspěchům je tvrzení o vytvoření systému umělé inteligence srovnatelného s OpenAI za pouhých 5 milionů dolarů nepřesné.

Podle Bernsteina je prohlášení DeepSeeku zavádějící a neodráží širší souvislosti.

„Věříme, že DeepSeek ‚nevytvořil OpenAI za 5 milionů dolarů‘; modely jsou fantastické, ale nemyslíme si, že by se jednalo o zázraky; a panika o víkendu se zdá být přehnaná,“ uvádí se ve zprávě.

hluboký průzkum Bloombergu
Analytici ze společnosti Bernstein jsou skeptičtí ohledně tvrzení společnosti DeepSeek o vývoji systému umělé inteligence za pouhých 5 milionů dolarů. (Obrázek: Bloomberg)

Společnost DeepSeek vyvíjí dva hlavní modely umělé inteligence: DeepSeek-V3 a DeepSeek R1. Rozsáhlý jazykový model V3 využívá architekturu MOE a kombinuje menší modely k dosažení vysokého výkonu při použití menšího množství výpočetních zdrojů než tradiční modely.

Na druhou stranu má model V3 671 miliard parametrů, z nichž 37 miliard je aktivních v daném okamžiku, a zahrnuje inovace, jako je MHLA pro snížení využití paměti a využití FP8 pro vyšší efektivitu.

Trénování modelu V3 vyžadovalo cluster 2 048 grafických procesorů Nvidia H800 po dobu dvou měsíců, což odpovídá 5,5 milionu hodin GPU. Zatímco některé odhady uvádějí náklady na školení na přibližně 5 milionů dolarů, Bernsteinova zpráva zdůrazňuje, že toto číslo zahrnuje pouze výpočetní zdroje a nezahrnuje významné náklady spojené s výzkumem, testováním a dalšími výdaji na vývoj.

Model DeepSeek R1 staví na základech V3 využitím posilovacího učení (RL) a dalších technik k zajištění schopnosti inference.

Model R1 může v úlohách uvažování konkurovat modelům OpenAI. Bernstein však zdůrazňuje, že vývoj R1 vyžaduje značné zdroje, ačkoli ty nejsou ve zprávě DeepSeek podrobně popsány.

Bernstein v komentáři k DeepSeeku modely označil za působivé. Například model V3 podává stejně dobré nebo i lepší výsledky než jiné hlavní jazykové modely v lingvistice, programování a matematice a zároveň vyžaduje méně zdrojů.

Proces předběžného trénování V3 vyžadoval pouze 2,7 milionu hodin práce GPU, což je 9 % výpočetních zdrojů některých jiných špičkových modelů.

Bernstein dospěl k závěru, že ačkoliv je pokrok DeepSeeku pozoruhodný, je třeba mít se na pozoru před přehnanými tvrzeními. Myšlenka vytvořit konkurenta OpenAI s pouhými 5 miliony dolarů se zdá být zavádějící.

(Podle Times of India)