![]() |
DeepSeek lansează un nou model de inteligență artificială care poate procesa documente cu de 7-20 de ori mai puține tokenuri decât metodele tradiționale. Foto: The Verge . |
Conform SCMP , DeepSeek a lansat un nou model de inteligență artificială (IA) multimodală, capabil să proceseze documente mari și complexe cu un număr semnificativ mai mic de token-uri, de 7-20 de ori mai puține decât metodele tradiționale de procesare a textului.
Token-urile sunt cele mai mici unități de text pe care le procesează inteligența artificială. Reducerea numărului de token-uri înseamnă economisirea costurilor de calcul și creșterea eficienței unui model de inteligență artificială.
Pentru a realiza acest lucru, modelul DeepSeek-OCR (recunoaștere optică a caracterelor) a folosit percepția vizuală ca mijloc de compresie a informațiilor. Această abordare permite modelelor lingvistice mari să proceseze volume uriașe de text fără a suporta un cost computațional proporțional crescut.
„Prin intermediul DeepSeek-OCR, am demonstrat că utilizarea percepției vizuale pentru comprimarea informațiilor poate realiza reduceri semnificative ale numărului de token-uri – de la 7 la 20 de ori pentru diferite perioade de context istoric, oferind o direcție promițătoare”, a declarat DeepSeek.
Conform postării de pe blogul companiei, DeepSeek-OCR este alcătuit din două componente principale, DeepEncoder și DeepSeek3B-MoE-A570M, care acționează ca un decodor.
Printre acestea, DeepEncoder acționează ca motor central al modelului, ajutând la menținerea unor niveluri scăzute de activare în condiții de intrare de înaltă rezoluție, atingând în același timp un raport de compresie puternic pentru a reduce numărul de token-uri.
Decodorul este apoi un model Mixture-of-Experts (MoE) cu 570 de milioane de parametri, însărcinat cu reproducerea textului original. Arhitectura MoE împarte modelul în subrețele specializate în procesarea unui subset al datelor de intrare, optimizând performanța fără a fi nevoie să activeze întregul model.
Pe OmniDocBench, un test de lizibilitate a documentelor, DeepSeek-OCR depășește performanțele majore ale modelelor OCR precum GOT-OCR 2.0 și MinerU 2.0, utilizând în același timp mult mai puține tokenuri.
Sursă: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Comentariu (0)