![]() |
DeepSeek hat ein neues KI-Modell veröffentlicht, das Dokumente mit 7- bis 20-mal weniger Tokens als herkömmliche Methoden verarbeiten kann. Foto: The Verge . |
Laut SCMP hat DeepSeek ein neues multimodales Modell künstlicher Intelligenz (KI) veröffentlicht, das in der Lage ist, große und komplexe Dokumente mit deutlich weniger Token – 7- bis 20-mal weniger – als herkömmliche Textverarbeitungsmethoden zu verarbeiten.
Tokens sind die kleinsten Texteinheiten, die von KI verarbeitet werden. Eine Reduzierung der Token-Anzahl senkt die Rechenkosten und erhöht die Effizienz eines KI-Modells.
Um dies zu erreichen, nutzt das DeepSeek-OCR-Modell (optische Zeichenerkennung) die visuelle Wahrnehmung zur Informationskomprimierung. Dieser Ansatz ermöglicht es großen Sprachmodellen, massive Textmengen zu verarbeiten, ohne dass die Rechenkosten proportional ansteigen.
„Mithilfe von DeepSeek-OCR haben wir gezeigt, dass die Komprimierung von Informationen durch visuelle Wahrnehmung zu einer signifikanten Reduzierung der Tokenanzahl führen kann – um das 7- bis 20-Fache für verschiedene historische Kontextphasen – und damit eine vielversprechende Richtung aufzeigt“, erklärte DeepSeek.
Laut dem Blogbeitrag des Unternehmens besteht DeepSeek-OCR aus zwei Hauptkomponenten: DeepEncoder und DeepSeek3B-MoE-A570M, der als Decoder fungiert.
In diesem Modell fungiert DeepEncoder als zentrales Werkzeug, das dazu beiträgt, niedrige Aktivierungsniveaus bei hochauflösenden Eingaben aufrechtzuerhalten und gleichzeitig starke Kompressionsraten zu erzielen, um die Anzahl der Token zu reduzieren.
Der Decoder ist ein Mixture-of-Experts-Modell (MoE) mit 570 Millionen Parametern, das den Originaltext rekonstruiert. Die MoE-Architektur unterteilt das Modell in Subnetzwerke, die jeweils auf die Verarbeitung einer Teilmenge der Eingangsdaten spezialisiert sind. Dadurch wird die Leistung optimiert, ohne das gesamte Modell zu aktivieren.
Auf OmniDocBench, einem Benchmark für die Lesbarkeit von Dokumenten, übertrifft DeepSeek-OCR führende OCR-Modelle wie GOT-OCR 2.0 und MinerU 2.0 und benötigt dabei deutlich weniger Token.
Quelle: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







Kommentar (0)