Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek schafft erneut den Durchbruch

DeepSeek kündigt das DeepSeek-OCR-Modell an, das visuelle Wahrnehmung als Komprimierungsmedium verwendet, um große Dokumente mit 20-mal weniger Token als herkömmliche Methoden zu verarbeiten.

ZNewsZNews23/10/2025

DeepSeek veröffentlicht ein neues KI-Modell, das Dokumente mit 7-20 Mal weniger Token verarbeiten kann als herkömmliche Methoden. Foto: The Verge .

Laut SCMP hat DeepSeek ein neues multimodales Modell für künstliche Intelligenz (KI) veröffentlicht, das große und komplexe Dokumente mit einer deutlich geringeren Anzahl von Token verarbeiten kann – 7-20 Mal weniger als herkömmliche Textverarbeitungsmethoden.

Token sind die kleinsten Texteinheiten, die von KI verarbeitet werden. Die Reduzierung der Token-Anzahl bedeutet, Rechenkosten zu sparen und die Effizienz eines KI-Modells zu steigern.

Um dies zu erreichen, nutzte das DeepSeek-OCR-Modell (optische Zeichenerkennung) die visuelle Wahrnehmung als Mittel zur Informationskomprimierung. Dieser Ansatz ermöglicht es großen Sprachmodellen, riesige Textmengen zu verarbeiten, ohne dass der Rechenaufwand proportional ansteigt.

„Mithilfe von DeepSeek-OCR haben wir gezeigt, dass durch die Verwendung visueller Wahrnehmung zur Komprimierung von Informationen erhebliche Token-Reduktionen erreicht werden können – um das 7- bis 20-fache für verschiedene historische Kontextzeiträume, was eine vielversprechende Richtung vorgibt“, sagte DeepSeek.

Laut Blogbeitrag des Unternehmens besteht DeepSeek-OCR aus zwei Hauptkomponenten, dem DeepEncoder und dem DeepSeek3B-MoE-A570M, der als Decoder fungiert.

Unter ihnen fungiert DeepEncoder als Kern-Engine des Modells und hilft dabei, niedrige Aktivierungsstufen bei hochauflösender Eingabe aufrechtzuerhalten und gleichzeitig ein starkes Komprimierungsverhältnis zu erreichen, um die Anzahl der Token zu reduzieren.

Der Decoder ist dann ein Mixture-of-Experts-Modell (MoE) mit 570 Millionen Parametern, dessen Aufgabe es ist, den Originaltext zu reproduzieren. Die MoE-Architektur unterteilt das Modell in Subnetzwerke, die sich auf die Verarbeitung einer Teilmenge der Eingabedaten spezialisieren. So wird die Leistung optimiert, ohne dass das gesamte Modell aktiviert werden muss.

Auf OmniDocBench, einem Benchmark für die Lesbarkeit von Dokumenten, übertrifft DeepSeek-OCR wichtige OCR-Modelle wie GOT-OCR 2.0 und MinerU 2.0 und verwendet dabei viel weniger Token.

Quelle: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


Kommentar (0)

No data
No data

Erbe

Figur

Geschäft

Junge Leute reisen in den Nordwesten, um während der schönsten Reissaison des Jahres einzuchecken

Aktuelle Veranstaltungen

Politisches System

Lokal

Produkt