A DeepSeek felfedi, hogyan építenek alacsony költségű MI-modelleket. Fotó: Bloomberg . |
Egy május 15-én közzétett kutatási jelentésben a DeepSeek első alkalommal osztott meg részleteket arról, hogyan építette fel a világ egyik legerősebb nyílt forráskódú mesterséges intelligencia rendszerét versenytársai költségeinek töredékéért.
A „Betekintés a DeepSeek-V3-ba: A mesterséges intelligencia architektúrák hardvereinek skálázási kihívásai és gondolatai” című tanulmányt Liang Wenfeng alapítóval közösen írta. A DeepSeek sikerét a hardver és a szoftver párhuzamos tervezésének tulajdonítja, ami megkülönböztető megközelítés számos olyan vállalathoz képest, amelyek még mindig a szoftverek független optimalizálására összpontosítanak.
„A 2048 Nvidia H800 GPU-n betanított DeepSeek-V3 bemutatta, hogyan oldhatja meg hatékonyan a kihívásokat a párhuzamos tervezés, lehetővé téve a hatékony betanítást és következtetéseket nagy léptékben” – írta a kutatócsoport a jelentésben. A DeepSeek és a High-Flyer hedge fund H800 chipeket halmozott fel, mielőtt az Egyesült Államok 2023-tól betiltotta azok kínai exportját.
A cikk szerint a DeepSeek kutatócsoportja tisztában volt a hardverkorlátokkal és a nagy nyelvi modellek (LLM-ek) betanításának elképesztő költségeivel – ez a technológia az olyan chatbotok mögött áll, mint az OpenAI ChatGPT-je. Ezért számos technikai optimalizálást hajtottak végre a memória teljesítményének növelése, a chipek közötti kommunikáció javítása és az AI infrastruktúra általános hatékonyságának fokozása érdekében.
Továbbá a DeepSeek hangsúlyozza a Mixed Expert Model (MoE) architektúra szerepét. Ez egy gépi tanulási módszer, amely a mesterséges intelligencia modelljét alhálózatokra osztja, amelyek mindegyike a bemeneti adatok egy külön részét dolgozza fel, és együttműködve optimalizálja az eredményeket.
Az MoE segít csökkenteni a betanítási költségeket és felgyorsítani az érvelési sebességet. Ez a módszer ma már széles körben elterjedt a kínai technológiai iparban, beleértve az Alibaba legújabb Qwen3 modelljét is.
A DeepSeek először akkor keltett figyelmet, amikor 2024 decemberében kiadta alap V3 modelljét, és januárban az R1 logikai modelljét. Ezek a termékek felkavarták a globális piacot, hozzájárulva a mesterséges intelligenciával kapcsolatos technológiai részvények széles körű eséséhez.
Bár a DeepSeek a közelmúltban nem árult el további terveket, rendszeres jelentésekkel fenntartotta a közösség érdeklődését. Március végén a cég kiadott egy kisebb frissítést a DeepSeek-V3-hoz, április végére pedig csendben elindították a Prover-V2 rendszert a matematikai bizonyításfeldolgozáshoz.
Forrás: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Hozzászólás (0)