DeepSeek, medyada sık sık görünmek yerine, yeni modellerin araştırma ve geliştirilmesine odaklanıyor. Fotoğraf: SCMP . |
DeepSeek, Tsinghua Üniversitesi'nden araştırmacılarla iş birliği yaparak, büyük dil modellerinin (LLM'ler) çıkarım yeteneklerini geliştirmek için yeni bir yöntem tanıttı. 4 Nisan akşamı yayınlanan bir araştırma makalesinde yer alan yöntem, LLM'lerin yaygın sorgular için daha iyi ve daha hızlı sonuçlar üretmesine yardımcı oluyor.
Bu teknik, DeepSeek'ten daha önce başarıyla kullanılan iki yöntemi birleştiriyor. Bunlardan biri, yapay zeka modelinin önceki sonuçlara dayanarak kendi kendini değerlendirmesine ve yanıtlarını iyileştirmesine olanak tanıyan üretken ödül modellemesi (GRM), diğeri ise öz ilkeli eleştiri ayarlamasıdır.
Her iki yöntem de yapay zekanın "kendi kendine öğrenme" özelliğine dayanarak, doğrudan insan geri bildirimi veya yönlendirmesine olan bağımlılığı azaltır, ancak insan beklentilerine daha yakın sonuçlar elde etmeyi amaçlar.
Araştırmacılara göre, yeni bir yöntem olmasına rağmen DeepSeek-GRM olağanüstü sonuçlar elde ediyor ve şu anda mevcut olan en bilinen ve etkili yapay zeka modelleriyle rekabet ediyor. DeepSeek, GRM modellerini açık kaynaklı hale getirmeyi planlıyor, ancak belirli bir zaman çerçevesi verilmedi.
DeepSeek, V3 platform modeli ve R1 çıkarım modeliyle küresel çapta etki yarattıktan sonra, çevrimiçi bilimsel arşiv arXiv'de bu akademik makaleyi yayınlayarak şirketin bir sonraki hamlesi hakkında merak uyandırdı.
Reuters, selefi DeepSeek-R1'in devam eden popülaritesi göz önüne alındığında, R1'in halefi DeepSeek-R2'nin Nisan ayında piyasaya sürülebileceğini tahmin ediyor. DeepSeek-R1, maliyetine göre üstün performansı sayesinde teknoloji dünyasında küresel bir sansasyon yaratmış ve mevcut önde gelen modellerle rekabet edebilir hale gelmişti.
DeepSeek söylentilerle ilgili sessizliğini koruyor. Ancak yerel kaynaklara göre, DeepSeek müşteri hizmetleri yetkilisi kurumsal müşterilerle yaptığı bir grup sohbetinde bu bilgiyi yalanladı.
Girişimci Liang Wenfeng tarafından 2023 yılında Hangzhou'da kurulan DeepSeek, son birkaç ayda hızla küresel ilgi topladı. Ancak şirket, kamuoyundaki şöhretinden faydalanmak yerine kaynaklarını araştırma ve geliştirmeye odaklıyor.
Daha önce DeepSeek, V3 modelini güncelleyerek DeepSeek-V3-0324 sürümünü yayınlamıştı. Açıklamaya göre, bu güncelleme gelişmiş mantıksal çıkarım yetenekleri, ön uç web kullanıcı arayüzü geliştirme için optimizasyon ve geliştirilmiş Çince yazma becerileri içeriyor.
Şubat ayında, girişim ayrıca beş kod deposunu açık kaynaklı hale getirerek "tam şeffaflıkla ilerleme" taahhüdünü teyit etti. Yine aynı ayda şirket, büyük miktarda veriyi işleme konusunda LLM'lerin performansını iyileştirmeye yardımcı olan "yerel seyrek dikkat" üzerine bir teknik çalışma duyurdu.
ABD'nin Çin'in teknolojik gelişimini kısıtlamaya çalıştığı bir dönemde DeepSeek, Çin'in yapay zeka endüstrisinin dinamizminin sembolü olarak görülüyor.
Kaynak: https://znews.vn/deepseek-gay-to-mo-post1543900.html






Yorum (0)