A DeepSeek felkelti a kíváncsiságot.

A DeepSeek az új modellek kutatására és fejlesztésére összpontosít, ahelyett, hogy gyakran szerepelne a médiában. Fotó: SCMP .

A Tsinghua Egyetem kutatóival együttműködve a DeepSeek bemutatott egy új módszert a nagy nyelvi modellek (LLM-ek) következtetési képességeinek javítására. A módszer, amelyet egy április 4-én este publikáltak egy kutatási cikkben, segít az LLM-eknek jobb és gyorsabb eredmények előállításában a gyakori lekérdezésekre.

Ez a technika a DeepSeek két korábban sikeres módszerét ötvözi. Az egyik a generatív jutalmazási modellezés (GRM), amely lehetővé teszi a mesterséges intelligencia modellje számára, hogy önértékelje és finomítsa válaszait a korábbi eredmények alapján, a másik pedig az önkritikus hangolás.

Mindkét módszer a mesterséges intelligencia „öntanuló” aspektusára támaszkodik, csökkentve a közvetlen emberi visszajelzéstől vagy útmutatástól való függést, de azzal a céllal, hogy az emberi elvárásokhoz közelebb álló eredményeket hozzon.

A kutatók szerint annak ellenére, hogy új módszerről van szó, a DeepSeek-GRM kiemelkedő eredményeket ér el, és felveszi a versenyt a jelenleg elérhető legismertebb és leghatékonyabb mesterséges intelligencia modellekkel. A DeepSeek tervezi a GRM modellek nyílt forráskódúvá tételét, de konkrét időkeretet nem adtak meg.

Miután a DeepSeek globális hatást ért el V3 platformmodelljével és R1 következtetési modelljével, publikálta ezt az akadémiai cikket az arXiv online tudományos archívumban, felkeltve a kíváncsiságot a vállalat következő lépése iránt.

A Reuters előrejelzése szerint az R1 utódja, a DeepSeek-R2 áprilisban jelenhet meg, tekintettel elődje folyamatos népszerűségére. A DeepSeek-R1 korábban globális szenzációt keltett a technológiai világban a költséghatékonyságához képest kiemelkedő teljesítményének köszönhetően, amely versenyképessé tette a jelenlegi vezető modellekkel.

A DeepSeek hallgatott a pletykákkal kapcsolatban. Helyi források szerint azonban egy DeepSeek ügyfélszolgálati fiók tagadta az információt egy vállalati ügyfelekkel folytatott csoportos csevegésben.

A 2023-ban Hangcsouban Liang Wenfeng vállalkozó által alapított DeepSeek az elmúlt hónapokban gyorsan globális figyelmet kapott. Ahelyett azonban, hogy kihasználná a nyilvános hírnevét, a vállalat erőforrásait a kutatásra és fejlesztésre összpontosítja.

A DeepSeek korábban frissítette V3 modelljét, kiadva a DeepSeek-V3-0324 verziót. A bejelentés szerint ez a frissítés továbbfejlesztett logikai képességeket, optimalizált felhasználói felületet és jobb kínai íráskészséget tartalmaz.

Februárban a startup öt kódtárat is nyílt forráskódúvá tett, megerősítve elkötelezettségét a „teljes átláthatóság melletti fejlődés” iránt. Szintén ebben a hónapban a vállalat bejelentett egy technikai tanulmányt a „natív ritka figyelem” technológiáról, amely segít javítani az LLM-ek teljesítményét a hatalmas adatmennyiség kezelésében.

A DeepSeeket a kínai mesterséges intelligenciaipar dinamizmusának szimbólumaként tekintik egy olyan időszakban, amikor az Egyesült Államok megpróbálja megfékezni az ország technológiai fejlődését.

Forrás: https://znews.vn/deepseek-gay-to-mo-post1543900.html