![]() |
A DeepSeek bemutatta új mesterséges intelligencia modelljét, amely 7-20-szor kevesebb tokennel képes feldolgozni a dokumentumokat, mint a hagyományos módszerek. Fotó: The Verge . |
Az SCMP szerint a DeepSeek kiadott egy új, multimodális mesterséges intelligencia (MI) modellt, amely képes nagy és összetett dokumentumok feldolgozására jelentősen kevesebb tokennel, 7-20-szor kevesebbel, mint a hagyományos szövegfeldolgozási módszerek.
A tokenek a mesterséges intelligencia által feldolgozott legkisebb szövegegységek. A tokenek számának csökkentése számítási költségek megtakarítását és egy mesterséges intelligencia modell hatékonyságának növelését jelenti.
Ennek eléréséhez a DeepSeek-OCR (optikai karakterfelismerő) modell a vizuális érzékelést használta az információtömörítés eszközeként. Ez a megközelítés lehetővé teszi a nagy nyelvi modellek számára, hogy hatalmas mennyiségű szöveget dolgozzanak fel arányosan megnövekedett számítási költség nélkül.
„A DeepSeek-OCR segítségével bebizonyítottuk, hogy a vizuális érzékelés használatával az információk tömörítésére jelentős tokencsökkentést lehet elérni – 7-20-szorosára a különböző történelmi kontextusú időszakokban, ami ígéretes irányt mutat” – mondta a DeepSeek.
A cég blogbejegyzése szerint a DeepSeek-OCR két fő komponensből áll, a DeepEncoderből és a dekóderként funkcionáló DeepSeek3B-MoE-A570M-ből.
Közülük a DeepEncoder a modell központi motorjaként működik, amely nagy felbontású bemenet mellett is segít alacsony aktiválási szintet fenntartani, miközben erős tömörítési arányt ér el a tokenek számának csökkentése érdekében.
A dekóder ezután egy 570 millió paraméterből álló Mixture-of-Experts (MoE) modell, amelynek feladata az eredeti szöveg reprodukálása. Az MoE architektúra a modellt alhálózatokra osztja, amelyek a bemeneti adatok egy részhalmazának feldolgozására specializálódtak, optimalizálva a teljesítményt anélkül, hogy a teljes modellt aktiválni kellene.
Az OmniDocBench dokumentumolvashatósági teszten a DeepSeek-OCR felülmúlja a főbb OCR modelleket, mint például a GOT-OCR 2.0 és a MinerU 2.0, miközben sokkal kevesebb tokent használ.
Forrás: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Hozzászólás (0)