DeepSeek odhaluje svá tajemství.

DeepSeek odhaluje, jak vytvářejí levné modely umělé inteligence. Foto: Bloomberg .

Ve výzkumné zprávě zveřejněné 15. května společnost DeepSeek poprvé sdílela podrobnosti o tom, jak za zlomek nákladů oproti konkurenci postavila jeden z nejvýkonnějších open-source systémů umělé inteligence na světě .

Studie s názvem „Pohledy do DeepSeek-V3: Výzvy škálování a úvahy o hardwaru pro architektury umělé inteligence“ je napsána ve spolupráci se zakladatelem Liangem Wenfengem. DeepSeek připisuje svůj úspěch paralelnímu návrhu hardwaru a softwaru, což je odlišný přístup ve srovnání s mnoha společnostmi, které se stále zaměřují na optimalizaci softwaru nezávisle.

„DeepSeek-V3, trénovaný na 2 048 grafických procesorech Nvidia H800, demonstroval, jak paralelní návrh dokáže efektivně řešit problémy a umožňuje efektivní trénování a inferenci ve velkém měřítku,“ napsal výzkumný tým ve zprávě. DeepSeek a hedgeový fond High-Flyer nashromáždily čipy H800, než USA od roku 2023 zakázaly jejich vývoz do Číny.

Podle článku si byl výzkumný tým DeepSeek dobře vědom hardwarových omezení a přemrštěných nákladů na trénování velkých jazykových modelů (LLM), což je základní technologie, na které stojí chatboty, jako je ChatGPT od OpenAI. Proto implementoval řadu technických optimalizací pro zvýšení výkonu paměti, zlepšení komunikace mezi čipy a zvýšení celkové efektivity infrastruktury umělé inteligence.

DeepSeek dále zdůrazňuje roli architektury Mixed Expert Model (MoE). Jedná se o metodu strojového učení, která rozděluje model umělé inteligence do podsítí, z nichž každá zpracovává samostatnou část vstupních dat a spolupracuje na optimalizaci výsledků.

MoE pomáhá snižovat náklady na školení a zrychlovat uvažování. Tato metoda je nyní široce používána v čínském technologickém průmyslu, včetně nejnovějšího modelu Qwen3 od Alibaby.

Společnost DeepSeek poprvé upoutala pozornost, když v prosinci 2024 vydala svůj základní model V3 a v lednu model uvažování R1. Tyto produkty způsobily na globálním trhu rozruch a přispěly k rozsáhlému poklesu akcií technologických společností souvisejících s umělou inteligencí.

Ačkoliv DeepSeek v poslední době nezveřejnil žádné další plány, udržuje si zájem komunity prostřednictvím pravidelných zpráv. Koncem března společnost vydala menší aktualizaci DeepSeek-V3 a do konce dubna tiše spustila systém Prover-V2 pro matematické zpracování důkazů.

Zdroj: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html