DeepSeek își dezvăluie secretele.

DeepSeek dezvăluie cum construiesc modele de inteligență artificială cu costuri reduse. Foto: Bloomberg .

Într-un raport de cercetare publicat pe 15 mai, DeepSeek a împărtășit pentru prima dată detalii despre cum a construit unul dintre cele mai puternice sisteme de inteligență artificială open-source din lume, la o fracțiune din costul concurenților săi.

Studiul, intitulat „Perspective asupra DeepSeek-V3: Provocări de scalare și reflecții asupra hardware-ului pentru arhitecturile de inteligență artificială”, este realizat în colaborare cu fondatorul Liang Wenfeng. DeepSeek își atribuie succesul proiectării paralele a hardware-ului și software-ului, o abordare diferențiatoare în comparație cu multe companii care încă se concentrează pe optimizarea independentă a software-ului.

„DeepSeek-V3, antrenat pe 2.048 de GPU-uri Nvidia H800, a demonstrat cum designul paralel poate rezolva eficient provocările, permițând antrenament și inferențe eficiente la scară largă”, a scris echipa de cercetare în raport. DeepSeek și fondul speculativ High-Flyer au stocat cipuri H800 înainte ca acestea să fie interzise la export în China de către SUA începând cu 2023.

Conform articolului, echipa de cercetare DeepSeek era foarte conștientă de limitările hardware și de costurile exorbitante ale antrenării modelelor lingvistice mari (LLM), tehnologia care stă la baza chatbot-urilor precum ChatGPT de la OpenAI. Prin urmare, au implementat o serie de optimizări tehnice pentru a crește performanța memoriei, a îmbunătăți comunicarea dintre cipuri și a spori eficiența generală a infrastructurii de inteligență artificială.

În plus, DeepSeek subliniază rolul arhitecturii Mixed Expert Model (MoE). Aceasta este o metodă de învățare automată care împarte modelul de inteligență artificială în subrețele, fiecare procesând o porțiune separată a datelor de intrare și lucrând în colaborare pentru a optimiza rezultatele.

Ministerul Educației (MoE) ajută la reducerea costurilor de instruire și la accelerarea vitezei de raționament. Această metodă este acum adoptată pe scară largă în industria tehnologică chineză, inclusiv în cel mai recent model Qwen3 de la Alibaba.

DeepSeek a atras atenția pentru prima dată când a lansat modelul său de bază V3 în decembrie 2024 și modelul său de raționament R1 în ianuarie. Aceste produse au provocat agitație pe piața globală, contribuind la o scădere generalizată a acțiunilor companiilor de tehnologie legate de inteligența artificială.

Deși DeepSeek nu a dezvăluit recent alte planuri, a menținut interesul comunității prin rapoarte regulate. La sfârșitul lunii martie, compania a lansat o actualizare minoră pentru DeepSeek-V3, iar până la sfârșitul lunii aprilie, a lansat discret sistemul Prover-V2 pentru procesarea demonstrațiilor matematice.

Sursă: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html