DeepSeek vekker nysgjerrighet.

DeepSeek fokuserer på forskning og utvikling av nye modeller, i stedet for å dukke opp ofte i media. Foto: SCMP .

I samarbeid med forskere fra Tsinghua University har DeepSeek introdusert en ny metode for å forbedre inferensfunksjonene til store språkmodeller (LLM-er). Metoden, som ble publisert i en forskningsartikkel kvelden 4. april, hjelper LLM-er med å produsere bedre og raskere resultater for vanlige spørringer.

Denne teknikken kombinerer to tidligere vellykkede metoder fra DeepSeek. Den ene er generativ belønningsmodellering (GRM), som lar AI-modellen selvevaluere og forbedre sine responser basert på tidligere resultater, og den andre er selvprinsippbasert kritikkjustering.

Begge metodene er avhengige av «selvlærings»-aspektet ved AI, noe som reduserer avhengigheten av direkte menneskelig tilbakemelding eller veiledning, men med mål om å levere resultater som er nærmere menneskelige forventninger.

Ifølge forskere oppnår DeepSeek-GRM fremragende resultater, til tross for at det er en ny metode, og konkurrerer med de mest kjente og effektive AI-modellene som er tilgjengelige for øyeblikket. DeepSeek planlegger å gjøre GRM-modeller til åpen kildekode, men ingen spesifikk tidsramme er gitt.

Etter å ha gjort et globalt inntrykk med sin V3-plattformmodell og R1-inferensmodell, publiserte DeepSeek denne akademiske artikkelen i det vitenskapelige nettarkivet arXiv, noe som vekket nysgjerrighet rundt selskapets neste trekk.

Reuters spår at DeepSeek-R2, etterfølgeren til R1, kan lanseres i april, gitt forgjengerens fortsatte popularitet. DeepSeek-R1 skapte tidligere global sensasjon i teknologiverdenen takket være sin overlegne ytelse i forhold til kostnad, noe som gjorde den konkurransedyktig med nåværende ledende modeller.

DeepSeek har forblitt taus om ryktene. Ifølge lokale kilder avkreftet imidlertid en kundeservicekonto hos DeepSeek informasjonen i en gruppechat med bedriftskunder.

DeepSeek ble grunnlagt i Hangzhou i 2023 av gründeren Liang Wenfeng, og har raskt fått global oppmerksomhet de siste månedene. Men i stedet for å kapitalisere på sin offentlige berømmelse, fokuserer selskapet ressursene sine på forskning og utvikling.

Tidligere oppgraderte DeepSeek sin V3-modell og lanserte versjon DeepSeek-V3-0324. I følge kunngjøringen inneholder denne oppdateringen forbedrede resonneringsmuligheter, optimalisering for utvikling av front-end web-brukergrensesnitt og forbedrede kinesiske skriveferdigheter.

I februar åpnet oppstartsbedriften også fem kodelagre med åpen kildekode, noe som bekreftet sin forpliktelse til «fremgang med full åpenhet». Samme måned annonserte selskapet også en teknisk studie om «native sparse attention» (native sparse oppmerksomhet), som bidrar til å forbedre ytelsen til LLM-er i håndteringen av enorme mengder data.

DeepSeek blir sett på som et symbol på dynamikken i Kinas AI-industri, i en tid der USA prøver å dempe landets teknologiske utvikling.

Kommentar (0)

Alene i naturen

Chau Hien

Krysantemumsesongen