![]() |
DeepSeek lanserer ny AI-modell som kan behandle dokumenter med 7–20 ganger færre tokens enn tradisjonelle metoder. Foto: The Verge . |
Ifølge SCMP har DeepSeek lansert en ny multimodal kunstig intelligens (KI)-modell som er i stand til å behandle store og komplekse dokumenter med et betydelig lavere antall tokens, 7–20 ganger mindre enn tradisjonelle tekstbehandlingsmetoder.
Tokener er de minste tekstenhetene som AI behandler. Å redusere antallet tokener betyr å spare beregningskostnader og øke effektiviteten til en AI-modell.
For å oppnå dette brukte DeepSeek-OCR-modellen (optisk tegngjenkjenning) visuell persepsjon som et middel for informasjonskomprimering. Denne tilnærmingen lar store språkmodeller behandle enorme tekstmengder uten å pådra seg proporsjonalt økte beregningskostnader.
«Gjennom DeepSeek-OCR har vi vist at bruk av visuell persepsjon for å komprimere informasjon kan oppnå betydelige reduksjoner i antall tokens – fra 7–20 ganger for ulike historiske kontekstperioder, noe som gir en lovende retning», sa DeepSeek.
Ifølge selskapets blogginnlegg består DeepSeek-OCR av to hovedkomponenter, DeepEncoder og DeepSeek3B-MoE-A570M, som fungerer som en dekoder.
Blant dem fungerer DeepEncoder som kjernemotoren i modellen, og bidrar til å opprettholde lave aktiveringsnivåer under høyoppløselig input, samtidig som den oppnår et sterkt kompresjonsforhold for å redusere antall tokens.
Dekoderen er da en Mixture-of-Experts (MoE)-modell med 570 millioner parametere som har i oppgave å reprodusere originalteksten. MoE-arkitekturen deler modellen inn i undernettverk som spesialiserer seg på å behandle et delsett av inngangsdataene, og optimaliserer ytelsen uten å måtte aktivere hele modellen.
På OmniDocBench, en referanseverdi for dokumentlesbarhet, yter DeepSeek-OCR bedre enn store OCR-modeller som GOT-OCR 2.0 og MinerU 2.0, samtidig som den bruker mye færre tokens.
Kilde: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Kommentar (0)