Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek enthüllt das Geheimnis

DeepSeek zeigt erstmals, wie sich dank gleichzeitigem Hardware- und Softwaredesign das weltweit führende Open-Source-KI-Modell kostengünstig erstellen lässt.

Zing NewsZing News20/05/2025

DeepSeek verrät, wie sie ein kostengünstiges KI-Modell erstellt haben. Foto: Bloomberg .

In einem am 15. Mai veröffentlichten Forschungsbericht gab DeepSeek erstmals Einzelheiten darüber bekannt, wie das Unternehmen zu einem Bruchteil der Kosten seiner Konkurrenten eines der weltweit leistungsstärksten Open-Source-KI-Systeme aufgebaut hat.

Die Studie mit dem Titel „Einblicke in DeepSeek-V3: Skalierungsherausforderungen und Überlegungen zur Hardware für KI-Architekturen“ wurde vom Gründer Liang Wenfeng mitverfasst. DeepSeek führt seinen Erfolg auf die parallele Entwicklung von Hardware und Software zurück. Dies ist ein anderer Schritt in einem Kontext, in dem sich viele Unternehmen immer noch auf die Optimierung unabhängiger Software konzentrieren.

„DeepSeek-V3, trainiert auf 2.048 Nvidia H800 GPUs, hat gezeigt, wie paralleles Design diese Herausforderungen effektiv bewältigen kann und effizientes Training und Inferenz im großen Maßstab ermöglicht“, schrieb das Team in dem Papier. DeepSeek und der Hedgefonds High-Flyer deckten sich mit Chips der H800-Serie ein, bevor die USA ihnen 2023 den Export nach China verboten.

Dem Dokument zufolge ist sich das DeepSeek-Team der Hardwarebeschränkungen sowie der „exorbitanten Kosten“ des Trainings großer Sprachmodelle (LLMs), der zugrunde liegenden Technologie hinter Chatbots wie ChatGPT von OpenAI, durchaus bewusst. Als Ergebnis implementierten sie eine Reihe technischer Optimierungen, die die Speicherleistung erhöhten, die Kommunikation zwischen den Chips verbesserten und die Effizienz der gesamten KI-Infrastruktur steigerten.

Darüber hinaus betont DeepSeek die Rolle der Model of Expert (MoE)-Architektur. Dabei handelt es sich um eine Methode des maschinellen Lernens, die ein KI-Modell in Teilnetze unterteilt, die jeweils einen separaten Teil der Eingabedaten verarbeiten und gemeinsam an der Optimierung des Ergebnisses arbeiten.

MoE trägt dazu bei, die Schulungskosten zu senken und die Inferenz zu beschleunigen. Diese Methode wird mittlerweile in der chinesischen Technologiebranche weithin übernommen, unter anderem auch beim neuesten Qwen3-Modell von Alibaba.

DeepSeek machte Schlagzeilen, als es im Dezember 2024 sein grundlegendes V3-Modell und im Januar sein R1-Argumentationsmodell veröffentlichte. Diese Produkte sorgten auf den Weltmärkten für Aufsehen und trugen zu einem starken Rückgang der Aktien von KI-bezogenen Technologieunternehmen bei.

Obwohl DeepSeek in letzter Zeit keine weiteren Pläne bekannt gegeben hat, hat das Unternehmen das Interesse der Community durch die Veröffentlichung regelmäßiger Berichte aufrechterhalten. Ende März veröffentlichte das Unternehmen ein kleineres Update für DeepSeek-V3 und Ende April brachte es in aller Stille das Prover-V2-System zur Verarbeitung mathematischer Beweise auf den Markt.

Quelle: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Kommentar (0)

No data
No data

Erbe

Figur

Geschäft

No videos available

Nachricht

Politisches System

Lokal

Produkt