Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek enthüllt das Geheimnis

DeepSeek zeigt erstmals, wie sich dank gleichzeitigem Hardware- und Softwaredesign das weltweit führende Open-Source-KI-Modell kostengünstig erstellen lässt.

ZNewsZNews19/05/2025

DeepSeek enthüllt, wie sie ein kostengünstiges KI-Modell entwickelt haben. Foto: Bloomberg .

In einem am 15. Mai veröffentlichten Forschungsbericht gab DeepSeek erstmals Einzelheiten darüber bekannt, wie das Unternehmen zu einem Bruchteil der Kosten seiner Konkurrenten eines der weltweit leistungsstärksten Open-Source-KI-Systeme aufgebaut hat.

Die Studie mit dem Titel „Einblicke in DeepSeek-V3: Skalierungsherausforderungen und Überlegungen zur Hardware für KI-Architekturen“ wurde vom Gründer Liang Wenfeng mitverfasst. DeepSeek führt seinen Erfolg auf die parallele Entwicklung von Hardware und Software zurück – ein Ansatz, der sich von vielen Unternehmen unterscheidet, die sich auf die isolierte Optimierung von Software konzentrieren.

„DeepSeek-V3, trainiert auf 2.048 Nvidia H800 GPUs, zeigt, wie parallele Designs diese Herausforderungen effektiv bewältigen und effizientes Training und Inferenz im großen Maßstab ermöglichen“, schrieb das Team in der Studie. DeepSeek und der Hedgefonds High-Flyer deckten sich mit der H800-Chiplinie ein, bevor die USA deren Export nach China im Jahr 2023 verboten.

Das DeepSeek-Team ist sich der Hardwarebeschränkungen und der „exorbitanten Kosten“ beim Training großer Sprachmodelle (LLMs) bewusst, der zugrunde liegenden Technologie hinter Chatbots wie ChatGPT von OpenAI. Dem Dokument zufolge hat es eine Reihe technischer Optimierungen implementiert, die die Speichereffizienz erhöhen, die Kommunikation zwischen den Chips verbessern und die Effizienz der gesamten KI-Infrastruktur steigern.

Darüber hinaus betont DeepSeek die Rolle der Model of Expert (MoE)-Architektur. Dabei handelt es sich um eine Methode des maschinellen Lernens, die ein KI-Modell in Teilnetze unterteilt, von denen jedes einen separaten Teil der Eingabedaten verarbeitet und gemeinsam an der Optimierung der Ergebnisse arbeitet.

MoE reduziert die Trainingskosten und beschleunigt die Inferenz. Diese Methode ist in der chinesischen Technologiebranche mittlerweile weit verbreitet, unter anderem im neuesten Qwen3-Modell von Alibaba.

DeepSeek machte Schlagzeilen, als es im Dezember 2024 sein Basismodell V3 und im Januar sein Reasoning-Modell R1 veröffentlichte. Diese Produkte sorgten für Aufsehen auf den globalen Märkten und trugen zu einem starken Rückgang der Aktien von KI-bezogenen Technologieunternehmen bei.

Obwohl DeepSeek in letzter Zeit keine weiteren Pläne bekannt gegeben hat, hält das Unternehmen das Interesse der Community durch regelmäßige Berichte aufrecht. Ende März veröffentlichte das Unternehmen ein kleines Update für DeepSeek-V3 und Ende April im Stillen sein Prover-V2-System zur Verarbeitung mathematischer Beweise.

Quelle: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Kommentar (0)

No data
No data
Magische Szene auf dem „umgedrehten Teehügel“ in Phu Tho
3 Inseln in der Zentralregion werden mit den Malediven verglichen und ziehen im Sommer Touristen an
Beobachten Sie nachts die glitzernde Küstenstadt Gia Lai in Quy Nhon
Bild von Terrassenfeldern in Phu Tho, sanft abfallend, hell und schön wie Spiegel vor der Pflanzsaison
Z121 Factory ist bereit für die International Fireworks Final Night
Berühmtes Reisemagazin lobt Son-Doong-Höhle als „die großartigste der Welt“
Geheimnisvolle Höhle zieht westliche Touristen an, vergleichbar mit der „Phong Nha-Höhle“ in Thanh Hoa
Entdecken Sie die poetische Schönheit der Vinh Hy Bay
Wie wird der teuerste Tee in Hanoi, der über 10 Millionen VND/kg kostet, verarbeitet?
Geschmack der Flussregion

Erbe

Figur

Geschäft

No videos available

Nachricht

Politisches System

Lokal

Produkt