![]() |
DeepSeek släpper ny AI-modell som kan bearbeta dokument med 7–20 gånger färre tokens än traditionella metoder. Foto: The Verge . |
Enligt SCMP har DeepSeek släppt en ny multimodal artificiell intelligens (AI)-modell som kan bearbeta stora och komplexa dokument med ett betydligt lägre antal tokens, 7–20 gånger färre än traditionella textbehandlingsmetoder.
Tokens är de minsta textenheterna som AI bearbetar. Att minska antalet tokens innebär att man sparar beräkningskostnader och ökar effektiviteten hos en AI-modell.
För att uppnå detta använde DeepSeek-OCR-modellen (optisk teckenigenkänning) visuell perception som ett sätt att komprimera information. Denna metod gör det möjligt för stora språkmodeller att bearbeta enorma textvolymer utan att det medför proportionellt ökade beräkningskostnader.
"Genom DeepSeek-OCR har vi visat att användning av visuell perception för att komprimera information kan uppnå betydande minskningar av token – från 7–20 gånger för olika historiska kontextperioder, vilket ger en lovande riktning", sa DeepSeek.
Enligt företagets blogginlägg består DeepSeek-OCR av två huvudkomponenter, DeepEncoder och DeepSeek3B-MoE-A570M, som fungerar som en avkodare.
Bland dem fungerar DeepEncoder som modellens kärnmotor och hjälper till att bibehålla låga aktiveringsnivåer under högupplösta indata, samtidigt som den uppnår ett starkt kompressionsförhållande för att minska antalet tokens.
Avkodaren är sedan en MoE-modell (Mixture-of-Experts) med 570 miljoner parametrar som har till uppgift att reproducera originaltexten. MoE-arkitekturen delar upp modellen i delnätverk som specialiserar sig på att bearbeta en delmängd av indata, vilket optimerar prestandan utan att hela modellen behöver aktiveras.
På OmniDocBench, ett riktmärke för dokumentläsbarhet, överträffar DeepSeek-OCR större OCR-modeller som GOT-OCR 2.0 och MinerU 2.0, samtidigt som det använder mycket färre tokens.
Källa: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Kommentar (0)