Vietnam.vn - Nền tảng quảng bá Việt Nam

A DeepSeek újabb áttörést ért el.

A DeepSeek bejelentette a DeepSeek-OCR modellt, amely a vizuális érzékelést tömörítési közegként használja a nagyméretű dokumentumok feldolgozásához, akár 20-szor kevesebb tokennel, mint a hagyományos módszerek.

ZNewsZNews23/10/2025

A DeepSeek kiadott egy új mesterséges intelligencia modellt, amely 7-20-szor kevesebb tokennel képes feldolgozni a dokumentumokat, mint a hagyományos módszerek. Fotó: The Verge .

Az SCMP szerint a DeepSeek kiadott egy új multimodális mesterséges intelligencia (MI) modellt, amely képes nagy és összetett dokumentumok feldolgozására jelentősen kevesebb – 7-20-szor kevesebb – tokennel, mint a hagyományos szövegfeldolgozási módszerek.

A tokenek a mesterséges intelligencia által feldolgozott legkisebb szövegegységek. A tokenek számának csökkentése számítási költségek megtakarítását és egy mesterséges intelligencia modell hatékonyságának növelését jelenti.

Ennek eléréséhez a DeepSeek-OCR (optikai karakterfelismerő) modell a vizuális érzékelést használta az információk tömörítésére. Ez a megközelítés lehetővé teszi a nagy nyelvi modellek számára, hogy hatalmas mennyiségű szöveget dolgozzanak fel anélkül, hogy arányosan növekvő számítási költségeket kellene viselniük.

„A DeepSeek-OCR segítségével bebizonyítottuk, hogy a vizuális érzékelés használatával az információk tömörítésére jelentős tokencsökkentést lehet elérni – 7-20-szorosára a különböző történelmi kontextuális szakaszokban –, ami ígéretes irányt jelent” – jelentette ki a DeepSeek.

A cég blogbejegyzése szerint a DeepSeek-OCR két fő komponensből áll: a DeepEncoderből és a dekóderként funkcionáló DeepSeek3B-MoE-A570M-ből.

Ebben a modellben a DeepEncoder központi eszközként működik, amely segít alacsony aktiválási szintet fenntartani nagy felbontású bemenet mellett, miközben erős tömörítési arányt ér el a tokenek számának csökkentése érdekében.

Ezt követően a dekóder egy 570 millió paraméterrel rendelkező, szakértők keverékéből álló (MoE) modell, amelynek feladata az eredeti szöveg rekonstruálása. Az MoE architektúra a modellt alhálózatokra osztja, amelyek a bemeneti adatok egy részhalmazának feldolgozására specializálódtak, optimalizálva a teljesítményt a teljes modell aktiválása nélkül.

Az OmniDocBench-en, a dokumentumok olvashatóságának referenciaértékén, a DeepSeek-OCR felülmúlja a főbb OCR modelleket, mint például a GOT-OCR 2.0 és a MinerU 2.0, miközben jelentősen kevesebb tokent használ.

Forrás: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


Hozzászólás (0)

Kérjük, hagyj egy hozzászólást, és oszd meg az érzéseidet!

Ugyanebben a kategóriában

Karácsonyi szórakozóhely keltett feltűnést a fiatalok körében Ho Si Minh-városban egy 7 méteres fenyőfával
Mi van a 100 méteres sikátorban, ami karácsonykor nagy feltűnést kelt?
Lenyűgözött a szuper esküvő, amelyet 7 napon és éjszakán át tartottak Phu Quoc-on
Ősi Jelmezfelvonulás: Száz Virág Öröme

Ugyanattól a szerzőtől

Örökség

Ábra

Üzleti

Don Den – Thai Nguyen új „égi erkélye” fiatal felhővadászokat vonz

Aktuális események

Politikai rendszer

Helyi

Termék