![]() |
DeepSeek har lansert en ny AI-modell som er i stand til å behandle dokumenter med 7–20 ganger færre tokens enn tradisjonelle metoder. Foto: The Verge . |
Ifølge SCMP har DeepSeek lansert en ny multimodal kunstig intelligens (KI)-modell som er i stand til å behandle store og komplekse dokumenter med betydelig færre tokens – 7–20 ganger færre – enn tradisjonelle tekstbehandlingsmetoder.
Tokener er de minste tekstenhetene som AI behandler. Å redusere antallet tokener betyr å spare beregningskostnader og øke effektiviteten til en AI-modell.
For å oppnå dette brukte DeepSeek-OCR-modellen (optisk tegngjenkjenning) visuell persepsjon som et middel for å komprimere informasjon. Denne tilnærmingen lar store språkmodeller behandle enorme tekstmengder uten å pådra seg proporsjonalt økende beregningskostnader.
«Gjennom DeepSeek-OCR har vi vist at bruk av visuell persepsjon for å komprimere informasjon kan oppnå betydelige reduksjoner av tokener – fra 7–20 ganger for ulike historiske kontekstuelle stadier – noe som gir en lovende retning», uttalte DeepSeek.
Ifølge selskapets blogginnlegg består DeepSeek-OCR av to hovedkomponenter: DeepEncoder og DeepSeek3B-MoE-A570M, som fungerer som dekoder.
I denne modellen fungerer DeepEncoder som kjerneverktøyet, og bidrar til å opprettholde lave aktiveringsnivåer under høyoppløselig input, samtidig som det oppnår sterke kompresjonsforhold for å redusere antall tokens.
Deretter er dekoderen en blanding av eksperter (MoE)-modell med 570 millioner parametere, som har som oppgave å rekonstruere den opprinnelige teksten. MoE-arkitekturen deler modellen inn i undernettverk som spesialiserer seg på å behandle et delsett av inngangsdataene, og optimaliserer ytelsen uten å aktivere hele modellen.
På OmniDocBench, en referanse for dokumentlesbarhet, utkonkurrerer DeepSeek-OCR store OCR-modeller som GOT-OCR 2.0 og MinerU 2.0, samtidig som den bruker betydelig færre tokens.
Kilde: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







Kommentar (0)