A DeepSeek újabb áttörést ért el.

A DeepSeek kiadott egy új mesterséges intelligencia modellt, amely 7-20-szor kevesebb tokennel képes feldolgozni a dokumentumokat, mint a hagyományos módszerek. Fotó: The Verge .

Az SCMP szerint a DeepSeek kiadott egy új multimodális mesterséges intelligencia (MI) modellt, amely képes nagy és összetett dokumentumok feldolgozására jelentősen kevesebb – 7-20-szor kevesebb – tokennel, mint a hagyományos szövegfeldolgozási módszerek.

A tokenek a mesterséges intelligencia által feldolgozott legkisebb szövegegységek. A tokenek számának csökkentése számítási költségek megtakarítását és egy mesterséges intelligencia modell hatékonyságának növelését jelenti.

Ennek eléréséhez a DeepSeek-OCR (optikai karakterfelismerő) modell a vizuális érzékelést használta az információk tömörítésére. Ez a megközelítés lehetővé teszi a nagy nyelvi modellek számára, hogy hatalmas mennyiségű szöveget dolgozzanak fel anélkül, hogy arányosan növekvő számítási költségeket kellene viselniük.

„A DeepSeek-OCR segítségével bebizonyítottuk, hogy a vizuális érzékelés használatával az információk tömörítésére jelentős tokencsökkentést lehet elérni – 7-20-szorosára a különböző történelmi kontextuális szakaszokban –, ami ígéretes irányt jelent” – jelentette ki a DeepSeek.

A cég blogbejegyzése szerint a DeepSeek-OCR két fő komponensből áll: a DeepEncoderből és a dekóderként funkcionáló DeepSeek3B-MoE-A570M-ből.

Ebben a modellben a DeepEncoder központi eszközként működik, amely segít alacsony aktiválási szintet fenntartani nagy felbontású bemenet mellett, miközben erős tömörítési arányt ér el a tokenek számának csökkentése érdekében.

Ezt követően a dekóder egy 570 millió paraméterrel rendelkező, szakértők keverékéből álló (MoE) modell, amelynek feladata az eredeti szöveg rekonstruálása. Az MoE architektúra a modellt alhálózatokra osztja, amelyek a bemeneti adatok egy részhalmazának feldolgozására specializálódtak, optimalizálva a teljesítményt a teljes modell aktiválása nélkül.

Az OmniDocBench-en, a dokumentumok olvashatóságának referenciaértékén, a DeepSeek-OCR felülmúlja a főbb OCR modelleket, mint például a GOT-OCR 2.0 és a MinerU 2.0, miközben jelentősen kevesebb tokent használ.

Forrás: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html