DeepSeek, Yılan Yılı'nın başlangıcında medyada ve sosyal medyada geniş yankı uyandırarak küresel borsalarda önemli sarsıntılara neden oldu.

Ancak, finansal danışmanlık firması Bernstein'ın yakın tarihli bir raporu, etkileyici başarılara rağmen, OpenAI'nin sistemine benzer bir yapay zeka sisteminin sadece 5 milyon dolara oluşturulduğu iddiasının doğru olmadığını belirtiyor.

Bernstein'e göre DeepSeek'in açıklaması yanıltıcı ve genel tabloyu yansıtmıyor.

Raporda , "DeepSeek'in '5 milyon dolarla OpenAI'yi yarattığına' inanmıyoruz; modeller harika ama mucize olduklarını düşünmüyoruz; ve hafta sonundaki paniğin abartılmış olduğu görülüyor" deniliyor.

deepseek bloomberg
Bernstein analistleri, DeepSeek'in sadece 5 milyon dolarla yapay zeka sistemi geliştirdiği iddiasına şüpheyle yaklaşıyor. (Resim: Bloomberg)

DeepSeek, DeepSeek-V3 ve DeepSeek R1 olmak üzere iki ana yapay zeka modeli geliştiriyor. Büyük ölçekli V3 dil modeli, daha küçük modelleri birleştirerek geleneksel modellere göre daha az işlem kaynağı kullanarak yüksek performans elde etmek için MOE mimarisinden yararlanıyor.

Öte yandan, V3 modeli 671 milyar parametreye sahip olup, herhangi bir anda 37 milyar parametre aktif durumdadır ve bellek kullanımını azaltmak için MHLA gibi yenilikleri bünyesinde barındırırken, daha yüksek verimlilik için FP8'i kullanmaktadır.

V3 modelinin eğitilmesi, iki aylık bir süre boyunca 2.048 adet Nvidia H800 GPU'dan oluşan bir küme gerektirdi; bu da 5,5 milyon GPU saatine eşdeğerdir. Bazı tahminler eğitim maliyetini yaklaşık 5 milyon dolar olarak belirtse de, Bernstein'ın raporu bu rakamın yalnızca bilgi işlem kaynaklarını kapsadığını ve araştırma, test ve diğer geliştirme giderleriyle ilgili önemli maliyetleri içermediğini vurgulamaktadır.

DeepSeek R1 modeli, çıkarım yeteneğini sağlamak için Takviyeli Öğrenme (RL) ve diğer teknikleri kullanarak V3'ün temelini geliştirir.

R1 modeli, mantıksal çıkarım görevlerinde OpenAI modelleriyle rekabet edebiliyor. Ancak Bernstein, DeepSeek raporunda ayrıntıları verilmeyen R1'in geliştirilmesinin önemli kaynaklar gerektirdiğine dikkat çekiyor.

DeepSeek hakkında yorum yapan Bernstein, modelleri etkileyici olarak övdü. Örneğin, V3 modeli, dilbilim, programlama ve matematik alanlarındaki diğer büyük dil modelleriyle aynı veya daha iyi performans gösterirken daha az kaynak gerektiriyor.

V3 ön eğitim süreci yalnızca 2,7 milyon GPU saati gerektirdi; bu da diğer bazı üst düzey modellerin işlem gücünün %9'una denk geliyor.

Bernstein, DeepSeek'in kaydettiği ilerlemelerin dikkate değer olduğunu ancak abartılı iddialara karşı temkinli olunması gerektiğini belirtti. Sadece 5 milyon dolarla OpenAI'ye rakip bir platform oluşturma fikri, yanlış yönlendirilmiş gibi görünüyor.

(Times of India'ya göre)