DeepSeek mendedahkan rahsianya.

DeepSeek mendedahkan bagaimana mereka membina model AI berkos rendah. Foto: Bloomberg .

Dalam laporan penyelidikan yang diterbitkan pada 15 Mei, DeepSeek buat pertama kalinya berkongsi butiran tentang bagaimana ia membina salah satu sistem AI sumber terbuka paling berkuasa di dunia pada sebahagian kecil daripada kos pesaingnya.

Kajian yang bertajuk “Wawasan ke dalam DeepSeek-V3: Menskalakan Cabaran dan Refleksi tentang Perkakasan untuk Seni Bina AI” ini dikarang bersama pengasas Liang Wenfeng. DeepSeek mengaitkan kejayaannya dengan reka bentuk perkakasan dan perisian yang selari, pendekatan yang membezakan berbanding banyak syarikat yang masih menumpukan pada pengoptimuman perisian secara bebas.

“DeepSeek-V3, yang dilatih menggunakan 2,048 GPU Nvidia H800, menunjukkan bagaimana reka bentuk selari dapat menyelesaikan cabaran dengan cekap, membolehkan latihan dan inferens yang cekap pada skala besar,” tulis pasukan penyelidikan dalam laporan itu. DeepSeek dan dana lindung nilai High-Flyer telah menyimpan cip H800 sebelum ia diharamkan daripada dieksport ke China oleh AS bermula pada tahun 2023.

Menurut artikel itu, pasukan penyelidikan DeepSeek menyedari batasan perkakasan dan kos latihan yang terlalu tinggi untuk model bahasa besar (LLM), teknologi asas di sebalik chatbot seperti ChatGPT OpenAI. Oleh itu, mereka melaksanakan beberapa pengoptimuman teknikal untuk meningkatkan prestasi memori, meningkatkan komunikasi antara cip dan meningkatkan kecekapan keseluruhan infrastruktur AI.

Tambahan pula, DeepSeek menekankan peranan seni bina Model Pakar Campuran (MoE). Ini merupakan kaedah pembelajaran mesin yang membahagikan model AI kepada subrangkaian, setiap satunya memproses bahagian data input yang berasingan dan bekerjasama untuk mengoptimumkan hasilnya.

Kementerian Pendidikan membantu mengurangkan kos latihan dan mempercepatkan kepantasan penaakulan. Kaedah ini kini digunakan secara meluas dalam industri teknologi China, termasuk model Qwen3 terkini Alibaba.

DeepSeek mula mendapat perhatian apabila ia mengeluarkan model asas V3 pada Disember 2024 dan model penaakulan R1 pada Januari. Produk-produk ini telah menimbulkan kekecohan di pasaran global, menyumbang kepada penurunan meluas dalam saham teknologi berkaitan AI.

Walaupun DeepSeek belum mendedahkan sebarang rancangan selanjutnya baru-baru ini, ia telah mengekalkan minat komuniti melalui laporan berkala. Pada akhir Mac, syarikat itu mengeluarkan kemas kini kecil kepada DeepSeek-V3, dan menjelang akhir April, mereka secara senyap-senyap melancarkan sistem Prover-V2 untuk pemprosesan bukti matematik.

Sumber: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html