Ny forskning avslöjar hemligheten bakom DeepSeeks framgång

Det kinesiska startupföretaget DeepSeeks R1-modell för artificiell intelligens – som chockade den amerikanska aktiemarknaden när den lanserades i januari – har publicerats i den första vetenskapligt granskade studien, som visar hur de utvecklade en kraftfull LLM för strax runt 300 000 dollar.

R1 är utformad för att utmärka sig i resonemangsuppgifter som matematik och programmering, vilket gör den till en billig konkurrent till verktyg som utvecklats av amerikanska teknikjättar.

Detta är en modell med "öppen vikt" som är gratis att ladda ner och för närvarande är den mest populära modellen på Hugging Face-plattformen, med över 10,9 miljoner nedladdningar.

Nature-studien, en uppdatering av ett manuskript från januari, avslöjade först att träning av R1 bara kostade 294 000 dollar, utöver cirka 6 miljoner dollar som spenderats på att bygga basmodellen.

Denna siffra är mycket lägre än de tiotals miljoner dollar som konkurrenterna sägs ha spenderat.

DeepSeek sa att R1 tränades främst med hjälp av Nvidia H800-chip, som USA har förbjudit att exportera till Kina sedan 2023.

R1:s genombrott var dess användning av "ren förstärkningsinlärning", där modellen tränas genom trial and error och belönas för korrekta svar, snarare än att lära sig från exempel som valts av människor. Den poängsätter också sina egna ansträngningar med hjälp av interna uppskattningar, en teknik som kallas "relativ gruppolicyoptimering", vilket hjälper till att öka prestandan.

”Den rigorösa granskningsprocessen hjälper till att validera modellens värde och tillförlitlighet”, säger forskaren Huan Sun (Ohio State University). ”Andra företag borde göra detsamma.”

Lewis Tunstall, maskininlärningsingenjör på Hugging Face, sa att detta är ett viktigt prejudikat eftersom transparens i AI-utveckling hjälper till att bedöma risker mer exakt.

DeepSeek hävdar att R1 inte tränades med hjälp av data från OpenAI:s modeller, även om de medger att den underliggande modellen tränades på webbdata – vilket kan inkludera AI-genererat innehåll.

Experter säger att även om det är svårt att verifiera absolut, tyder nuvarande bevis på att ren förbättring räcker för att uppnå hög prestanda.

I ScienceAgentBench-testet toppade inte R1 noggrannhetslistan, men det uppnådde en bra balans mellan effektivitet och kostnad. Forskarna vill nu tillämpa DeepSeeks metod för att förbättra resonemangsförmågan hos befintliga juridiklärare, samt utvidga den till områden bortom matematik och programmering.

Enligt Mr. Tunstall har R1 ”startat en revolution” inom utvecklingen av artificiell intelligens.

(TTXVN/Vietnam+)

Källa: https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp