DeepSeek izbucnește din nou

DeepSeek a lansat un nou model de inteligență artificială capabil să proceseze documente cu de 7-20 de ori mai puține tokenuri decât metodele tradiționale. Foto: The Verge .

Conform SCMP , DeepSeek a lansat un nou model de inteligență artificială (IA) multimodală, capabil să proceseze documente mari și complexe cu semnificativ mai puține token-uri - de 7-20 de ori mai puține - decât metodele tradiționale de procesare a textului.

Token-urile sunt cele mai mici unități de text pe care le procesează inteligența artificială. Reducerea numărului de token-uri înseamnă economisirea costurilor de calcul și creșterea eficienței unui model de inteligență artificială.

Pentru a realiza acest lucru, modelul DeepSeek-OCR (recunoaștere optică a caracterelor) a folosit percepția vizuală ca mijloc de comprimare a informațiilor. Această abordare permite modelelor lingvistice mari să proceseze volume masive de text fără a suporta costuri de calcul proporțional crescânde.

„Prin intermediul DeepSeek-OCR, am demonstrat că utilizarea percepției vizuale pentru comprimarea informațiilor poate realiza reduceri semnificative ale numărului de token-uri - de la 7 la 20 de ori pentru diferite etape contextuale istorice - oferind o direcție promițătoare”, a declarat DeepSeek.

Conform postării de pe blogul companiei, DeepSeek-OCR este alcătuit din două componente principale: DeepEncoder și DeepSeek3B-MoE-A570M, care acționează ca decodor.

În acest model, DeepEncoder acționează ca instrument principal, ajutând la menținerea unor niveluri scăzute de activare în condiții de intrare de înaltă rezoluție, atingând în același timp rate de compresie puternice pentru a reduce numărul de token-uri.

Ulterior, decodorul este un model Mixture-of-Experts (MoE) cu 570 de milioane de parametri, însărcinat cu reconstrucția textului original. Arhitectura MoE împarte modelul în subrețele specializate în procesarea unui subset al datelor de intrare, optimizând performanța fără a activa întregul model.

Pe OmniDocBench, un test de performanță pentru lizibilitatea documentelor, DeepSeek-OCR depășește performanțele majore ale modelelor OCR precum GOT-OCR 2.0 și MinerU 2.0, utilizând în același timp semnificativ mai puține tokenuri.

Sursă: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html