![]() |
DeepSeek har släppt en ny AI-modell som kan bearbeta dokument med 7–20 gånger färre tokens än traditionella metoder. Foto: The Verge . |
Enligt SCMP har DeepSeek släppt en ny multimodal artificiell intelligens (AI)-modell som kan bearbeta stora och komplexa dokument med betydligt färre tokens – 7–20 gånger färre – än traditionella textbehandlingsmetoder.
Tokens är de minsta textenheterna som AI bearbetar. Att minska antalet tokens innebär att man sparar beräkningskostnader och ökar effektiviteten hos en AI-modell.
För att uppnå detta använde DeepSeek-OCR-modellen (optisk teckenigenkänning) visuell perception som ett sätt att komprimera information. Denna metod gör det möjligt för stora språkmodeller att bearbeta enorma textvolymer utan att ådra sig proportionellt ökande beräkningskostnader.
”Genom DeepSeek-OCR har vi visat att användning av visuell perception för att komprimera information kan uppnå betydande minskningar av token – från 7–20 gånger för olika historiska kontextuella stadier – vilket erbjuder en lovande riktning”, konstaterade DeepSeek.
Enligt företagets blogginlägg består DeepSeek-OCR av två huvudkomponenter: DeepEncoder och DeepSeek3B-MoE-A570M, som fungerar som avkodare.
I den här modellen fungerar DeepEncoder som kärnverktyget och hjälper till att bibehålla låga aktiveringsnivåer under högupplösta indata samtidigt som starka komprimeringsförhållanden uppnås för att minska antalet tokens.
Därefter är avkodaren en Mixture-of-Experts (MoE)-modell med 570 miljoner parametrar, som har till uppgift att rekonstruera originaltexten. MoE-arkitekturen delar upp modellen i delnätverk som specialiserar sig på att bearbeta en delmängd av indata, vilket optimerar prestandan utan att aktivera hela modellen.
På OmniDocBench, ett riktmärke för dokumentläsbarhet, överträffar DeepSeek-OCR större OCR-modeller som GOT-OCR 2.0 och MinerU 2.0, samtidigt som den använder betydligt färre tokens.
Källa: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







Kommentar (0)