Vietnam.vn - Nền tảng quảng bá Việt Nam

A DeepSeek felfedi titkait.

A DeepSeek most először árulta el, hogyan építette fel a világ vezető nyílt forráskódú mesterséges intelligencia modelljét alacsony költségek mellett, a hardver- és szoftvertervezés egyidejűségének köszönhetően.

ZNewsZNews19/05/2025

A DeepSeek felfedi, hogyan építenek alacsony költségű MI-modelleket. Fotó: Bloomberg .

Egy május 15-én közzétett kutatási jelentésben a DeepSeek első alkalommal osztott meg részleteket arról, hogyan építette fel a világ egyik legerősebb nyílt forráskódú mesterséges intelligencia rendszerét versenytársai költségeinek töredékéért.

A „Betekintés a DeepSeek-V3-ba: A mesterséges intelligencia architektúrák hardvereinek skálázási kihívásai és gondolatai” című tanulmányt Liang Wenfeng alapítóval közösen írta. A DeepSeek sikerét a hardver és a szoftver párhuzamos tervezésének tulajdonítja, ami megkülönböztető megközelítés számos olyan vállalathoz képest, amelyek még mindig a szoftverek független optimalizálására összpontosítanak.

„A 2048 Nvidia H800 GPU-n betanított DeepSeek-V3 bemutatta, hogyan oldhatja meg hatékonyan a kihívásokat a párhuzamos tervezés, lehetővé téve a hatékony betanítást és következtetéseket nagy léptékben” – írta a kutatócsoport a jelentésben. A DeepSeek és a High-Flyer hedge fund H800 chipeket halmozott fel, mielőtt az Egyesült Államok 2023-tól betiltotta azok kínai exportját.

A cikk szerint a DeepSeek kutatócsoportja tisztában volt a hardverkorlátokkal és a nagy nyelvi modellek (LLM-ek) betanításának elképesztő költségeivel – ez a technológia az olyan chatbotok mögött áll, mint az OpenAI ChatGPT-je. Ezért számos technikai optimalizálást hajtottak végre a memória teljesítményének növelése, a chipek közötti kommunikáció javítása és az AI infrastruktúra általános hatékonyságának fokozása érdekében.

Továbbá a DeepSeek hangsúlyozza a Mixed Expert Model (MoE) architektúra szerepét. Ez egy gépi tanulási módszer, amely a mesterséges intelligencia modelljét alhálózatokra osztja, amelyek mindegyike a bemeneti adatok egy külön részét dolgozza fel, és együttműködve optimalizálja az eredményeket.

Az MoE segít csökkenteni a betanítási költségeket és felgyorsítani az érvelési sebességet. Ez a módszer ma már széles körben elterjedt a kínai technológiai iparban, beleértve az Alibaba legújabb Qwen3 modelljét is.

A DeepSeek először akkor keltett figyelmet, amikor 2024 decemberében kiadta alap V3 modelljét, és januárban az R1 logikai modelljét. Ezek a termékek felkavarták a globális piacot, hozzájárulva a mesterséges intelligenciával kapcsolatos technológiai részvények széles körű eséséhez.

Bár a DeepSeek a közelmúltban nem árult el további terveket, rendszeres jelentésekkel fenntartotta a közösség érdeklődését. Március végén a cég kiadott egy kisebb frissítést a DeepSeek-V3-hoz, április végére pedig csendben elindították a Prover-V2 rendszert a matematikai bizonyításfeldolgozáshoz.

Forrás: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Hozzászólás (0)

Kérjük, hagyj egy hozzászólást, és oszd meg az érzéseidet!

Örökség

Ábra

Vállalkozások

Aktuális ügyek

Politikai rendszer

Helyi

Termék

Happy Vietnam
Történelemóra

Történelemóra

Lépj az égbe

Lépj az égbe

Hosszú rizspapírom

Hosszú rizspapírom