DeepSeek onthult zijn geheimen.

DeepSeek onthult hoe ze goedkope AI-modellen bouwen. Foto: Bloomberg .

In een onderzoeksrapport dat op 15 mei werd gepubliceerd, deelde DeepSeek voor het eerst details over hoe het een van 's werelds krachtigste open-source AI-systemen heeft gebouwd tegen een fractie van de kosten van zijn concurrenten.

De studie, getiteld "Inzichten in DeepSeek-V3: schaaluitdagingen en reflecties op hardware voor AI-architecturen", is mede geschreven door oprichter Liang Wenfeng. DeepSeek schrijft zijn succes toe aan het parallelle ontwerp van hardware en software, een onderscheidende aanpak ten opzichte van veel bedrijven die zich nog steeds richten op het onafhankelijk optimaliseren van software.

"DeepSeek-V3, getraind op 2.048 Nvidia H800 GPU's, demonstreerde hoe parallel ontwerp efficiënt uitdagingen kan oplossen, waardoor efficiënte training en inferentie op grote schaal mogelijk wordt", schreef het onderzoeksteam in het rapport. DeepSeek en het hedgefonds High-Flyer hadden een voorraad H800-chips aangelegd voordat de VS de export ervan naar China vanaf 2023 verbood.

Volgens het artikel was het onderzoeksteam van DeepSeek zich terdege bewust van de hardwarebeperkingen en de exorbitante kosten van het trainen van grote taalmodellen (LLM's), de onderliggende technologie van chatbots zoals ChatGPT van OpenAI. Daarom implementeerden ze een reeks technische optimalisaties om de geheugenprestaties te verbeteren, de communicatie tussen chips te optimaliseren en de algehele efficiëntie van de AI-infrastructuur te verhogen.

DeepSeek benadrukt bovendien de rol van de Mixed Expert Model (MoE)-architectuur. Dit is een machine learning-methode die het AI-model opdeelt in subnetwerken, waarbij elk subnetwerk een apart deel van de invoergegevens verwerkt en samenwerkt om de resultaten te optimaliseren.

MoE helpt de trainingskosten te verlagen en de redeneersnelheid te versnellen. Deze methode wordt nu op grote schaal toegepast in de Chinese technologie-industrie, waaronder in Alibaba's nieuwste Qwen3-model.

DeepSeek trok voor het eerst de aandacht met de release van zijn basismodel V3 in december 2024 en zijn R1-redeneermodel in januari. Deze producten zorgden voor opschudding op de wereldmarkt en droegen bij aan een algemene daling van aandelen in AI-gerelateerde technologiebedrijven.

Hoewel DeepSeek de laatste tijd geen nieuwe plannen heeft onthuld, heeft het bedrijf de interesse van de community weten te behouden door middel van regelmatige updates. Eind maart bracht het bedrijf een kleine update uit voor DeepSeek-V3, en eind april lanceerden ze in alle stilte het Prover-V2-systeem voor de verwerking van wiskundige bewijzen.

Bron: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html