DeepSeek enthüllt das Geheimnis

DeepSeek enthüllt, wie sie ein kostengünstiges KI-Modell entwickelt haben. Foto: Bloomberg .

In einem am 15. Mai veröffentlichten Forschungsbericht gab DeepSeek erstmals Einzelheiten darüber bekannt, wie das Unternehmen zu einem Bruchteil der Kosten seiner Konkurrenten eines der weltweit leistungsstärksten Open-Source-KI-Systeme aufgebaut hat.

Die Studie mit dem Titel „Einblicke in DeepSeek-V3: Skalierungsherausforderungen und Überlegungen zur Hardware für KI-Architekturen“ wurde vom Gründer Liang Wenfeng mitverfasst. DeepSeek führt seinen Erfolg auf die parallele Entwicklung von Hardware und Software zurück – ein Ansatz, der sich von vielen Unternehmen unterscheidet, die sich auf die isolierte Optimierung von Software konzentrieren.

„DeepSeek-V3, trainiert auf 2.048 Nvidia H800 GPUs, zeigt, wie parallele Designs diese Herausforderungen effektiv bewältigen und effizientes Training und Inferenz im großen Maßstab ermöglichen“, schrieb das Team in der Studie. DeepSeek und der Hedgefonds High-Flyer deckten sich mit der H800-Chiplinie ein, bevor die USA deren Export nach China im Jahr 2023 verboten.

Das DeepSeek-Team ist sich der Hardwarebeschränkungen und der „exorbitanten Kosten“ beim Training großer Sprachmodelle (LLMs) bewusst, der zugrunde liegenden Technologie hinter Chatbots wie ChatGPT von OpenAI. Dem Dokument zufolge hat es eine Reihe technischer Optimierungen implementiert, die die Speichereffizienz erhöhen, die Kommunikation zwischen den Chips verbessern und die Effizienz der gesamten KI-Infrastruktur steigern.

Darüber hinaus betont DeepSeek die Rolle der Model of Expert (MoE)-Architektur. Dabei handelt es sich um eine Methode des maschinellen Lernens, die ein KI-Modell in Teilnetze unterteilt, von denen jedes einen separaten Teil der Eingabedaten verarbeitet und gemeinsam an der Optimierung der Ergebnisse arbeitet.

MoE reduziert die Trainingskosten und beschleunigt die Inferenz. Diese Methode ist in der chinesischen Technologiebranche mittlerweile weit verbreitet, unter anderem im neuesten Qwen3-Modell von Alibaba.

DeepSeek machte Schlagzeilen, als es im Dezember 2024 sein Basismodell V3 und im Januar sein Reasoning-Modell R1 veröffentlichte. Diese Produkte sorgten für Aufsehen auf den globalen Märkten und trugen zu einem starken Rückgang der Aktien von KI-bezogenen Technologieunternehmen bei.

Obwohl DeepSeek in letzter Zeit keine weiteren Pläne bekannt gegeben hat, hält das Unternehmen das Interesse der Community durch regelmäßige Berichte aufrecht. Ende März veröffentlichte das Unternehmen ein kleines Update für DeepSeek-V3 und Ende April im Stillen sein Prover-V2-System zur Verarbeitung mathematischer Beweise.

Quelle: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html