DeepSeek avslöjar hur de bygger billiga AI-modeller. Foto: Bloomberg . |
I en forskningsrapport som publicerades den 15 maj delade DeepSeek för första gången med sig av detaljer om hur de byggde ett av världens mest kraftfulla AI-system med öppen källkod till en bråkdel av kostnaden för sina konkurrenter.
Studien, med titeln ”Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”, är skriven tillsammans med grundaren Liang Wenfeng. DeepSeek tillskriver sin framgång den parallella designen av hårdvara och mjukvara, ett differentierande tillvägagångssätt jämfört med många företag som fortfarande fokuserar på att optimera mjukvara separat.
”DeepSeek-V3, tränad på 2 048 Nvidia H800 GPU:er, visade hur parallell design effektivt kan lösa utmaningar, vilket möjliggör effektiv träning och inferens i stor skala”, skrev forskargruppen i rapporten. DeepSeek och hedgefonden High-Flyer hade lagrat H800-chip innan de förbjöds att exporteras till Kina av USA från och med 2023.
Enligt artikeln var DeepSeeks forskarteam väl medvetna om hårdvarubegränsningarna och de orimliga kostnaderna för att träna stora språkmodeller (LLM), den underliggande tekniken bakom chatbotar som OpenAI:s ChatGPT. Därför implementerade de en rad tekniska optimeringar för att öka minnesprestanda, förbättra kommunikationen mellan chip och förbättra den totala effektiviteten i AI-infrastrukturen.
Dessutom betonar DeepSeek rollen för arkitekturen Mixed Expert Model (MoE). Det är en maskininlärningsmetod som delar upp AI-modellen i delnätverk, där vart och ett bearbetar en separat del av indata och arbetar tillsammans för att optimera resultaten.
MoE hjälper till att minska utbildningskostnader och snabba upp resonemanget. Denna metod är nu allmänt använd inom den kinesiska teknikindustrin, inklusive Alibabas senaste Qwen3-modell.
DeepSeek fick första uppmärksamhet när de släppte sin grundläggande V3-modell i december 2024 och sin R1-modell i januari. Dessa produkter orsakade uppståndelse på den globala marknaden och bidrog till ett omfattande fall i aktier relaterade till AI-teknik.
Även om DeepSeek inte har avslöjat några ytterligare planer nyligen, har de upprätthållit intresset från allmänheten genom regelbundna rapporter. I slutet av mars släppte företaget en mindre uppdatering av DeepSeek-V3, och i slutet av april lanserade de i tysthet Prover-V2-systemet för matematisk bevisbehandling.
Källa: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Kommentar (0)