Jelentésében a DeepSeek kijelentette, hogy a teljes képzési költség 5,576 millió dollár volt, elsősorban az Nvidia grafikus feldolgozóegységeinek bérleti díja miatt. A vállalat arra is figyelmeztetett, hogy ez az adat csak a „formális képzést” tükrözi, és nem tartalmazza az architektúrával, algoritmusokkal és adatokkal kapcsolatos korábbi kutatásokkal vagy kísérletekkel kapcsolatos költségeket. Ez azonnal felkeltette a befektetők figyelmét, és a globális technológiai vállalatok részvényei csak január 27-én 1 billió dolláros zuhanást okoztak.
A DeepSeek üzemeltetési költségei sokkal magasabbak, mint ahogy állítják?
A SemiAnalysis félvezető-kutató és tanácsadó cég jelentése most más szemszögből mutatja be a DeepSeek fejlesztési költségeit. A cég becslése szerint a DeepSeek hardverkiadásai jelentősen magasabbak lesznek a korábban közöltnél, miközben kiemeli a jelentős kutatás-fejlesztési (K+F) költségeket és a teljes birtoklási költséget is.
A SemiAnalysis szerint a betanítási modellekhez „szintetikus adatok” létrehozása „jelentős számítási erőfeszítést” igényel majd. Továbbá a vállalatoknak új architektúrákat is tesztelniük és fejleszteniük kell, adatokat kell gyűjteniük és tisztítaniuk, valamint béreket kell fizetniük az alkalmazottaknak.
A DeepSeeknek 50 000 GPU-ra van szüksége a 2000 helyett?
A szakértők számításai szerint a DeepSeek egy nagyméretű számítástechnikai rendszert üzemeltet, amely körülbelül 50 000 Hopper GPU-ból, 10 000 H800 GPU-ból és 10 000 nagyobb teljesítményű H100 GPU-ból, valamint további H20 GPU-kból áll. Ez ellentmond a DeepSeek korábbi állításának, miszerint mindössze 2048 Nvidia GPU-t használ. A szerverek teljes tőkeköltségét körülbelül 1,6 milliárd dollárra becsülik, míg az üzemeltetési költségek 944 millió dollárt tesznek ki.
A SemiAnalysis úgy véli, hogy a DeepSeek 50 000 Nvidia GPU-t használt.
A DeepSeeket 2023-ban alapította Liang Wenfeng, a High-Flyer, egy mesterséges intelligenciára fókuszáló kínai hedge fund társalapítója. A startup az alap MI kutatóegységéből fejlődött ki 2023 áprilisában, azzal a céllal, hogy nagyméretű nyelvi modelleket fejlesszen ki és általános mesterséges intelligenciát (AGI) érjen el.
A DeepSeek iránti érdeklődés akkor fokozódott, amikor a vállalat kiadta az R1-et, egy olyan érvelési modellt, amely az OpenAI o1-jével versenyez, de nyílt forráskódúként kínálják, így bármely MI-fejlesztő használhatja. Sok más kínai chatbothoz hasonlóan azonban a DeepSeeknek is vannak korlátai bizonyos témákban.
Sam Altman, az OpenAI vezérigazgatója dicsérte a DeepSeek modelljét, hangsúlyozva, hogy az „egyértelműen nagyszerű modell”. Ugyanakkor azt is kijelentette, hogy vannak bizonyítékok arra vonatkozóan, hogy a DeepSeek az OpenAI adatait „desztillációs” módszerrel gyűjtötte össze a működéshez.
[hirdetés_2]
Forrás: https://thanhnien.vn/chi-phi-phat-trien-deepseek-bi-tang-boc-185250203151508438.htm







Hozzászólás (0)