A DeepSeek felfedi titkait.

A DeepSeek felfedi, hogyan építenek alacsony költségű MI-modelleket. Fotó: Bloomberg .

Egy május 15-én közzétett kutatási jelentésben a DeepSeek első alkalommal osztott meg részleteket arról, hogyan építette fel a világ egyik legerősebb nyílt forráskódú mesterséges intelligencia rendszerét versenytársai költségeinek töredékéért.

A „Betekintés a DeepSeek-V3-ba: A mesterséges intelligencia architektúrák hardvereinek skálázási kihívásai és gondolatai” című tanulmányt Liang Wenfeng alapítóval közösen írta. A DeepSeek sikerét a hardver és a szoftver párhuzamos tervezésének tulajdonítja, ami megkülönböztető megközelítés számos olyan vállalathoz képest, amelyek még mindig a szoftverek független optimalizálására összpontosítanak.

„A 2048 Nvidia H800 GPU-n betanított DeepSeek-V3 bemutatta, hogyan oldhatja meg hatékonyan a kihívásokat a párhuzamos tervezés, lehetővé téve a hatékony betanítást és következtetéseket nagy léptékben” – írta a kutatócsoport a jelentésben. A DeepSeek és a High-Flyer hedge fund H800 chipeket halmozott fel, mielőtt az Egyesült Államok 2023-tól betiltotta azok kínai exportját.

A cikk szerint a DeepSeek kutatócsoportja tisztában volt a hardverkorlátokkal és a nagy nyelvi modellek (LLM-ek) betanításának elképesztő költségeivel – ez a technológia az olyan chatbotok mögött áll, mint az OpenAI ChatGPT-je. Ezért számos technikai optimalizálást hajtottak végre a memória teljesítményének növelése, a chipek közötti kommunikáció javítása és az AI infrastruktúra általános hatékonyságának fokozása érdekében.

Továbbá a DeepSeek hangsúlyozza a Mixed Expert Model (MoE) architektúra szerepét. Ez egy gépi tanulási módszer, amely a mesterséges intelligencia modelljét alhálózatokra osztja, amelyek mindegyike a bemeneti adatok egy külön részét dolgozza fel, és együttműködve optimalizálja az eredményeket.

Az MoE segít csökkenteni a betanítási költségeket és felgyorsítani az érvelési sebességet. Ez a módszer ma már széles körben elterjedt a kínai technológiai iparban, beleértve az Alibaba legújabb Qwen3 modelljét is.

A DeepSeek először akkor keltett figyelmet, amikor 2024 decemberében kiadta alap V3 modelljét, és januárban az R1 logikai modelljét. Ezek a termékek felkavarták a globális piacot, hozzájárulva a mesterséges intelligenciával kapcsolatos technológiai részvények széles körű eséséhez.

Bár a DeepSeek a közelmúltban nem árult el további terveket, rendszeres jelentésekkel fenntartotta a közösség érdeklődését. Március végén a cég kiadott egy kisebb frissítést a DeepSeek-V3-hoz, április végére pedig csendben elindították a Prover-V2 rendszert a matematikai bizonyításfeldolgozáshoz.

Forrás: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html