DeepSeek avslører hvordan de bygger rimelige AI-modeller. Foto: Bloomberg . |
I en forskningsrapport publisert 15. mai delte DeepSeek for første gang detaljer om hvordan de bygde et av verdens kraftigste åpen kildekode-systemer for kunstig intelligens til en brøkdel av kostnaden for konkurrentene.
Studien, med tittelen «Innsikt i DeepSeek-V3: Skalering av utfordringer og refleksjoner om maskinvare for AI-arkitekturer», er skrevet i samarbeid med grunnlegger Liang Wenfeng. DeepSeek tilskriver suksessen sin den parallelle designen av maskinvare og programvare, en differensierende tilnærming sammenlignet med mange selskaper som fortsatt fokuserer på å optimalisere programvare uavhengig.
«DeepSeek-V3, trent på 2048 Nvidia H800 GPU-er, demonstrerte hvordan parallell design effektivt kan løse utfordringer, noe som muliggjør effektiv trening og inferens i stor skala», skrev forskerteamet i rapporten. DeepSeek og hedgefondet High-Flyer hadde hamstret H800-brikker før de ble forbudt å eksportere til Kina av USA fra 2023.
Ifølge artikkelen var DeepSeek-forskerteamet godt klar over maskinvarebegrensningene og de ublu kostnadene ved å trene store språkmodeller (LLM-er), den underliggende teknologien bak chatboter som OpenAIs ChatGPT. Derfor implementerte de en rekke tekniske optimaliseringer for å øke minneytelsen, forbedre kommunikasjonen mellom brikker og forbedre den generelle effektiviteten til AI-infrastrukturen.
Videre vektlegger DeepSeek rollen til Mixed Expert Model (MoE)-arkitekturen. Dette er en maskinlæringsmetode som deler AI-modellen inn i undernettverk, der hvert nettverk behandler en egen del av inngangsdataene og samarbeider for å optimalisere resultatene.
MoE bidrar til å redusere opplæringskostnader og øke resonneringshastigheten. Denne metoden er nå bredt tatt i bruk i den kinesiske teknologibransjen, inkludert Alibabas nyeste Qwen3-modell.
DeepSeek fikk først oppmerksomhet da de lanserte sin grunnleggende V3-modell i desember 2024 og sin R1-resonnementmodell i januar. Disse produktene forårsaket oppstyr i det globale markedet og bidro til et omfattende fall i aksjer knyttet til AI-relatert teknologi.
Selv om DeepSeek ikke har avslørt noen ytterligere planer nylig, har de opprettholdt interessen i samfunnet gjennom regelmessige rapporter. I slutten av mars lanserte selskapet en mindre oppdatering til DeepSeek-V3, og innen utgangen av april lanserte de i stillhet Prover-V2-systemet for matematisk bevisbehandling.
Kilde: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Kommentar (0)