Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek mengungkap rahasianya.

DeepSeek untuk pertama kalinya mengungkapkan bagaimana mereka membangun model AI sumber terbuka terkemuka di dunia dengan biaya rendah, berkat desain perangkat keras dan perangkat lunak secara simultan.

ZNewsZNews19/05/2025

DeepSeek mengungkapkan bagaimana mereka membangun model AI berbiaya rendah. Foto: Bloomberg .

Dalam laporan penelitian yang diterbitkan pada 15 Mei, DeepSeek untuk pertama kalinya membagikan detail tentang bagaimana mereka membangun salah satu sistem AI sumber terbuka paling canggih di dunia dengan biaya yang jauh lebih rendah daripada para pesaingnya.

Studi yang berjudul “Wawasan tentang DeepSeek-V3: Tantangan Skalabilitas dan Refleksi tentang Perangkat Keras untuk Arsitektur AI” ini ditulis bersama dengan pendirinya, Liang Wenfeng. DeepSeek mengaitkan kesuksesannya dengan desain paralel perangkat keras dan perangkat lunak, sebuah pendekatan yang membedakannya dibandingkan dengan banyak perusahaan yang masih fokus pada pengoptimalan perangkat lunak secara independen.

“DeepSeek-V3, yang dilatih pada 2.048 GPU Nvidia H800, menunjukkan bagaimana desain paralel dapat secara efisien memecahkan tantangan, memungkinkan pelatihan dan inferensi yang efisien dalam skala besar,” tulis tim peneliti dalam laporan tersebut. DeepSeek dan hedge fund High-Flyer telah menimbun chip H800 sebelum ekspornya ke China dilarang oleh AS mulai tahun 2023.

Menurut artikel tersebut, tim peneliti DeepSeek sangat menyadari keterbatasan perangkat keras dan biaya yang sangat tinggi untuk melatih model bahasa besar (LLM), teknologi yang mendasari chatbot seperti ChatGPT milik OpenAI. Oleh karena itu, mereka menerapkan serangkaian optimasi teknis untuk meningkatkan kinerja memori, meningkatkan komunikasi antar chip, dan meningkatkan efisiensi keseluruhan infrastruktur AI.

Selain itu, DeepSeek menekankan peran arsitektur Mixed Expert Model (MoE). Ini adalah metode pembelajaran mesin yang membagi model AI menjadi sub-jaringan, masing-masing memproses bagian data input yang terpisah dan bekerja sama untuk mengoptimalkan hasilnya.

MoE membantu mengurangi biaya pelatihan dan mempercepat kecepatan penalaran. Metode ini sekarang banyak diadopsi di industri teknologi Tiongkok, termasuk model Qwen3 terbaru dari Alibaba.

DeepSeek pertama kali menarik perhatian ketika merilis model dasar V3 pada Desember 2024 dan model penalaran R1 pada Januari. Produk-produk ini menimbulkan kehebohan di pasar global, berkontribusi pada penurunan luas saham teknologi terkait AI.

Meskipun DeepSeek belum mengungkapkan rencana lebih lanjut baru-baru ini, mereka tetap mempertahankan minat komunitas melalui laporan berkala. Pada akhir Maret, perusahaan merilis pembaruan kecil untuk DeepSeek-V3, dan pada akhir April, mereka diam-diam meluncurkan sistem Prover-V2 untuk pemrosesan bukti matematika.

Sumber: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Komentar (0)

Silakan tinggalkan komentar untuk berbagi perasaan Anda!

Dalam kategori yang sama

Dari penulis yang sama

Warisan

Angka

Bisnis

Berita Terkini

Sistem Politik

Lokal

Produk

Happy Vietnam
Mengambil foto kenang-kenangan bersama para pemimpin Kota Ho Chi Minh.

Mengambil foto kenang-kenangan bersama para pemimpin Kota Ho Chi Minh.

Melalui Cabang dan Sejarah

Melalui Cabang dan Sejarah

Musim bunga krisan

Musim bunga krisan