DeepSeek ujawnia swoje sekrety.

DeepSeek ujawnia, jak tworzy tanie modele sztucznej inteligencji. Zdjęcie: Bloomberg .

W raporcie badawczym opublikowanym 15 maja firma DeepSeek po raz pierwszy ujawniła szczegóły dotyczące tego, w jaki sposób udało się jej stworzyć jeden z najpotężniejszych na świecie systemów sztucznej inteligencji typu open source, za ułamek kosztów ponoszonych przez konkurencję.

Badanie zatytułowane „Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures” zostało napisane wspólnie z założycielem firmy, Liangiem Wenfengiem. DeepSeek przypisuje swój sukces równoległemu projektowaniu sprzętu i oprogramowania, co stanowi wyróżniające podejście w porównaniu z wieloma firmami, które nadal koncentrują się na niezależnej optymalizacji oprogramowania.

„DeepSeek-V3, trenowany na 2048 procesorach graficznych Nvidia H800, pokazał, jak projektowanie równoległe może skutecznie rozwiązywać problemy, umożliwiając efektywne szkolenie i wnioskowanie na dużą skalę” – napisał zespół badawczy w raporcie. DeepSeek i fundusz hedgingowy High-Flyer zgromadziły zapasy układów H800, zanim Stany Zjednoczone zakazały ich eksportu do Chin od 2023 roku.

Według artykułu, zespół badawczy DeepSeek doskonale zdawał sobie sprawę z ograniczeń sprzętowych i wygórowanych kosztów szkolenia dużych modeli językowych (LLM), technologii leżącej u podstaw chatbotów, takich jak ChatGPT firmy OpenAI. Dlatego wdrożyli szereg optymalizacji technicznych, aby zwiększyć wydajność pamięci, usprawnić komunikację między układami scalonymi i poprawić ogólną wydajność infrastruktury AI.

Ponadto DeepSeek podkreśla rolę architektury Mixed Expert Model (MoE). Jest to metoda uczenia maszynowego, która dzieli model sztucznej inteligencji na podsieci, z których każda przetwarza osobną porcję danych wejściowych i współpracuje w celu optymalizacji wyników.

MoE pomaga obniżyć koszty szkoleń i przyspieszyć tempo rozumowania. Ta metoda jest obecnie szeroko stosowana w chińskim przemyśle technologicznym, w tym w najnowszym modelu Qwen3 firmy Alibaba.

DeepSeek po raz pierwszy zyskał rozgłos, gdy w grudniu 2024 roku wypuścił swój podstawowy model V3, a w styczniu model wnioskowania R1. Produkty te wywołały poruszenie na rynku globalnym, przyczyniając się do gwałtownego spadku cen akcji spółek technologicznych związanych ze sztuczną inteligencją.

Chociaż DeepSeek nie ujawnił ostatnio żadnych dalszych planów, podtrzymuje zainteresowanie społeczności poprzez regularne raporty. Pod koniec marca firma wydała niewielką aktualizację DeepSeek-V3, a pod koniec kwietnia po cichu uruchomiła system Prover-V2 do przetwarzania dowodów matematycznych.

Źródło: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html