DeepSeek, düşük maliyetli yapay zeka modellerini nasıl oluşturduklarını açıkladı. Fotoğraf: Bloomberg . |
DeepSeek, 15 Mayıs'ta yayınladığı bir araştırma raporunda, dünyanın en güçlü açık kaynaklı yapay zeka sistemlerinden birini rakiplerine kıyasla çok daha düşük bir maliyetle nasıl geliştirdiğine dair ayrıntıları ilk kez paylaştı.
“DeepSeek-V3 Hakkında Bilgiler: Ölçeklendirme Zorlukları ve Yapay Zeka Mimarileri için Donanım Üzerine Düşünceler” başlıklı çalışma, kurucu Liang Wenfeng ile birlikte kaleme alınmıştır. DeepSeek, başarısını donanım ve yazılımın paralel tasarımına borçludur; bu yaklaşım, hala yazılımı bağımsız olarak optimize etmeye odaklanan birçok şirkete kıyasla farklılaştırıcı bir özelliktir.
Araştırma ekibi raporda, "2.048 adet Nvidia H800 GPU üzerinde eğitilen DeepSeek-V3, paralel tasarımın zorlukları nasıl verimli bir şekilde çözebileceğini ve büyük ölçekte verimli eğitim ve çıkarım yapmayı nasıl mümkün kıldığını gösterdi" diye yazdı. DeepSeek ve hedge fonu High-Flyer, 2023'ten itibaren ABD tarafından Çin'e ihracatı yasaklanmadan önce H800 çiplerini stoklamıştı.
Makaleye göre, DeepSeek araştırma ekibi, OpenAI'nin ChatGPT'si gibi sohbet botlarının temelini oluşturan büyük dil modellerinin (LLM'ler) eğitiminin donanım sınırlamalarının ve aşırı maliyetlerinin farkındaydı. Bu nedenle, bellek performansını artırmak, çipler arasındaki iletişimi iyileştirmek ve yapay zeka altyapısının genel verimliliğini artırmak için bir dizi teknik optimizasyon uyguladılar.
Ayrıca DeepSeek, Karma Uzman Model (MoE) mimarisinin rolünü vurgulamaktadır. Bu, yapay zeka modelini alt ağlara bölen, her birinin girdi verilerinin ayrı bir bölümünü işleyen ve sonuçları optimize etmek için işbirliği içinde çalışan bir makine öğrenme yöntemidir.
Eğitim Bakanlığı, eğitim maliyetlerini düşürmeye ve muhakeme hızını artırmaya yardımcı oluyor. Bu yöntem, Alibaba'nın en yeni Qwen3 modeli de dahil olmak üzere Çin teknoloji endüstrisinde yaygın olarak kullanılmaktadır.
DeepSeek, Aralık 2024'te temel V3 modelini ve Ocak ayında R1 mantıksal modelini piyasaya sürdüğünde ilk kez dikkatleri üzerine çekti. Bu ürünler küresel pazarda büyük yankı uyandırdı ve yapay zeka ile ilgili teknoloji hisselerinde yaygın bir düşüşe katkıda bulundu.
DeepSeek son zamanlarda başka planlarını açıklamamış olsa da, düzenli raporlar aracılığıyla topluluğun ilgisini canlı tutmayı başardı. Mart ayı sonlarında şirket, DeepSeek-V3'e küçük bir güncelleme yayınladı ve Nisan ayı sonlarında da matematiksel ispat işleme için Prover-V2 sistemini sessizce piyasaya sürdü.
Kaynak: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Yorum (0)