DeepSeek mengungkapkan bagaimana mereka membangun model AI berbiaya rendah. Foto: Bloomberg . |
Dalam laporan penelitian yang diterbitkan pada 15 Mei, DeepSeek untuk pertama kalinya membagikan detail tentang bagaimana mereka membangun salah satu sistem AI sumber terbuka paling canggih di dunia dengan biaya yang jauh lebih rendah daripada para pesaingnya.
Studi yang berjudul “Wawasan tentang DeepSeek-V3: Tantangan Skalabilitas dan Refleksi tentang Perangkat Keras untuk Arsitektur AI” ini ditulis bersama dengan pendirinya, Liang Wenfeng. DeepSeek mengaitkan kesuksesannya dengan desain paralel perangkat keras dan perangkat lunak, sebuah pendekatan yang membedakannya dibandingkan dengan banyak perusahaan yang masih fokus pada pengoptimalan perangkat lunak secara independen.
“DeepSeek-V3, yang dilatih pada 2.048 GPU Nvidia H800, menunjukkan bagaimana desain paralel dapat secara efisien memecahkan tantangan, memungkinkan pelatihan dan inferensi yang efisien dalam skala besar,” tulis tim peneliti dalam laporan tersebut. DeepSeek dan hedge fund High-Flyer telah menimbun chip H800 sebelum ekspornya ke China dilarang oleh AS mulai tahun 2023.
Menurut artikel tersebut, tim peneliti DeepSeek sangat menyadari keterbatasan perangkat keras dan biaya yang sangat tinggi untuk melatih model bahasa besar (LLM), teknologi yang mendasari chatbot seperti ChatGPT milik OpenAI. Oleh karena itu, mereka menerapkan serangkaian optimasi teknis untuk meningkatkan kinerja memori, meningkatkan komunikasi antar chip, dan meningkatkan efisiensi keseluruhan infrastruktur AI.
Selain itu, DeepSeek menekankan peran arsitektur Mixed Expert Model (MoE). Ini adalah metode pembelajaran mesin yang membagi model AI menjadi sub-jaringan, masing-masing memproses bagian data input yang terpisah dan bekerja sama untuk mengoptimalkan hasilnya.
MoE membantu mengurangi biaya pelatihan dan mempercepat kecepatan penalaran. Metode ini sekarang banyak diadopsi di industri teknologi Tiongkok, termasuk model Qwen3 terbaru dari Alibaba.
DeepSeek pertama kali menarik perhatian ketika merilis model dasar V3 pada Desember 2024 dan model penalaran R1 pada Januari. Produk-produk ini menimbulkan kehebohan di pasar global, berkontribusi pada penurunan luas saham teknologi terkait AI.
Meskipun DeepSeek belum mengungkapkan rencana lebih lanjut baru-baru ini, mereka tetap mempertahankan minat komunitas melalui laporan berkala. Pada akhir Maret, perusahaan merilis pembaruan kecil untuk DeepSeek-V3, dan pada akhir April, mereka diam-diam meluncurkan sistem Prover-V2 untuk pemrosesan bukti matematika.
Sumber: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Komentar (0)