DeepSeek enthüllt, wie sie kostengünstige KI-Modelle entwickeln. Foto: Bloomberg . |
In einem am 15. Mai veröffentlichten Forschungsbericht legte DeepSeek erstmals Details darüber offen, wie das Unternehmen eines der leistungsstärksten Open-Source-KI-Systeme der Welt zu einem Bruchteil der Kosten seiner Konkurrenten entwickelt hat.
Die Studie mit dem Titel „Einblicke in DeepSeek-V3: Skalierungsherausforderungen und Überlegungen zur Hardware für KI-Architekturen“ wurde gemeinsam mit Gründer Liang Wenfeng verfasst. DeepSeek führt seinen Erfolg auf die parallele Entwicklung von Hardware und Software zurück – ein differenzierender Ansatz im Vergleich zu vielen Unternehmen, die sich weiterhin auf die separate Optimierung der Software konzentrieren.
„DeepSeek-V3, trainiert auf 2.048 Nvidia H800 GPUs, demonstrierte, wie paralleles Design Herausforderungen effizient lösen und so effizientes Training und Inferenz in großem Umfang ermöglichen kann“, schrieb das Forschungsteam in seinem Bericht. DeepSeek und der Hedgefonds High-Flyer hatten sich vor dem US-Exportverbot für H800-Chips nach China ab 2023 einen Vorrat angelegt.
Dem Artikel zufolge war sich das DeepSeek-Forschungsteam der Hardwarebeschränkungen und der enormen Kosten für das Training großer Sprachmodelle (LLMs), der Basistechnologie von Chatbots wie OpenAIs ChatGPT, bewusst. Daher implementierten sie eine Reihe technischer Optimierungen, um die Speicherleistung zu steigern, die Kommunikation zwischen den Chips zu verbessern und die Gesamteffizienz der KI-Infrastruktur zu erhöhen.
DeepSeek betont zudem die Bedeutung der Mixed Expert Model (MoE)-Architektur. Dabei handelt es sich um eine Methode des maschinellen Lernens, die das KI-Modell in Teilnetzwerke unterteilt. Jedes Teilnetzwerk verarbeitet einen separaten Teil der Eingangsdaten und die Teilnetzwerke arbeiten zusammen, um die Ergebnisse zu optimieren.
MoE trägt dazu bei, die Schulungskosten zu senken und die Denkgeschwindigkeit zu erhöhen. Diese Methode ist in der chinesischen Technologiebranche mittlerweile weit verbreitet, so auch im neuesten Qwen3-Modell von Alibaba.
DeepSeek erregte erstmals Aufmerksamkeit mit der Veröffentlichung seines Basismodells V3 im Dezember 2024 und seines Modells R1 für logisches Denken im Januar. Diese Produkte sorgten für Aufsehen auf dem Weltmarkt und trugen zu einem weit verbreiteten Kursverfall von KI-bezogenen Technologieaktien bei.
Obwohl DeepSeek in letzter Zeit keine weiteren Pläne bekannt gegeben hat, konnte das Unternehmen durch regelmäßige Berichte das Interesse der Community aufrechterhalten. Ende März veröffentlichte DeepSeek ein kleineres Update für DeepSeek-V3 und Ende April brachte es still und leise das Prover-V2-System zur Verarbeitung mathematischer Beweise auf den Markt.
Quelle: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Kommentar (0)