![]() |
DeepSeek lanceert nieuw AI-model dat documenten kan verwerken met 7-20 keer minder tokens dan traditionele methoden. Foto: The Verge . |
Volgens SCMP heeft DeepSeek een nieuw multimodaal model voor kunstmatige intelligentie (AI) uitgebracht dat grote en complexe documenten kan verwerken met een aanzienlijk lager aantal tokens, 7-20 keer minder dan traditionele tekstverwerkingsmethoden.
Tokens zijn de kleinste teksteenheden die AI verwerkt. Het verminderen van het aantal tokens betekent een besparing op rekenkosten en een hogere efficiëntie van een AI-model.
Om dit te bereiken, gebruikte het DeepSeek-OCR-model (optische tekenherkenning) visuele perceptie als middel voor informatiecompressie. Deze aanpak stelt grote taalmodellen in staat om enorme hoeveelheden tekst te verwerken zonder proportioneel hogere rekenkosten.
"Met DeepSeek-OCR hebben we aangetoond dat het gebruik van visuele perceptie om informatie te comprimeren tot aanzienlijke tokenreducties kan leiden – van 7 tot 20 keer voor verschillende historische contextperiodes, wat een veelbelovende richting biedt", aldus DeepSeek.
Volgens de blogpost van het bedrijf bestaat DeepSeek-OCR uit twee hoofdcomponenten: de DeepEncoder en de DeepSeek3B-MoE-A570M, die als decoder fungeert.
DeepEncoder fungeert hierbij als de kernengine van het model en helpt lage activeringsniveaus te handhaven bij invoer met een hoge resolutie. Tegelijkertijd wordt een sterke compressieverhouding bereikt om het aantal tokens te beperken.
De decoder is dan een Mixture-of-Experts (MoE)-model met 570 miljoen parameters dat de oorspronkelijke tekst moet reproduceren. De MoE-architectuur verdeelt het model in subnetwerken die gespecialiseerd zijn in het verwerken van een subset van de invoergegevens, waardoor de prestaties worden geoptimaliseerd zonder het hele model te hoeven activeren.
Op OmniDocBench, een benchmark voor leesbaarheid van documenten, presteert DeepSeek-OCR beter dan belangrijke OCR-modellen zoals GOT-OCR 2.0 en MinerU 2.0, terwijl er veel minder tokens worden gebruikt.
Bron: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Reactie (0)