Nieuw onderzoek onthult het geheim van het succes van DeepSeek

Het R1-model voor kunstmatige intelligentie van de Chinese startup DeepSeek – dat de Amerikaanse aandelenmarkt schokte toen het in januari werd gelanceerd – is gepubliceerd in de eerste peer-reviewed studie, waarin wordt getoond hoe het bedrijf een krachtige LLM heeft ontwikkeld voor slechts ongeveer $ 300.000.

De R1 is ontworpen om uit te blinken in redeneertaken zoals wiskunde en programmeren, waardoor het een goedkope concurrent is voor hulpmiddelen die zijn ontwikkeld door Amerikaanse technologiegiganten.

Dit is een 'open weight'-model, dat gratis te downloaden is en momenteel het populairste model op het Hugging Face-platform is, met meer dan 10,9 miljoen downloads.

Uit het Nature-onderzoek, een update van een manuscript uit januari, bleek als eerste dat de training van R1 slechts $ 294.000 kostte, naast de ongeveer $ 6 miljoen die was uitgegeven aan de bouw van het basismodel.

Dit bedrag ligt veel lager dan de tientallen miljoenen dollars die concurrenten naar verluidt hebben uitgegeven.

Volgens DeepSeek is R1 voornamelijk getraind met behulp van Nvidia H800-chips, waarvan de VS de export naar China sinds 2023 verboden heeft.

De doorbraak van R1 was het gebruik van 'pure reinforcement learning', waarbij het model wordt getraind door middel van trial-and-error en beloond wordt voor correcte antwoorden, in plaats van te leren van door mensen gekozen voorbeelden. Het scoort zijn eigen inspanningen ook met behulp van interne schattingen, een techniek die 'relatieve groepsbeleidoptimalisatie' wordt genoemd, wat de prestaties helpt verbeteren.

"Het strenge peer reviewproces helpt de waarde en betrouwbaarheid van het model te valideren", zegt onderzoeker Huan Sun (Ohio State University). "Andere bedrijven zouden hetzelfde moeten doen."

Volgens Lewis Tunstall, een machine learning engineer bij Hugging Face, is dit een belangrijk precedent, omdat transparantie in AI-ontwikkeling helpt om risico's nauwkeuriger in te schatten.

DeepSeek beweert dat R1 niet is getraind met gegevens uit de modellen van OpenAI, maar geeft toe dat het onderliggende model is getraind met webgegevens, die door AI gegenereerde content kunnen bevatten.

Volgens deskundigen is het moeilijk om dit absoluut te verifiëren, maar het huidige bewijsmateriaal suggereert dat pure verbetering voldoende is om hoge prestaties te bereiken.

In de ScienceAgentBench-test scoorde R1 niet de hoogste nauwkeurigheid, maar het boekte wel een goede balans tussen efficiëntie en kosten. De onderzoekers willen de DeepSeek-methode nu toepassen om de redeneervaardigheden van bestaande LLM's te verbeteren en deze uit te breiden naar gebieden buiten wiskunde en programmeren.

Volgens de heer Tunstall heeft R1 een “revolutie ontketend” in de ontwikkeling van kunstmatige intelligentie.

(TTXVN/Vietnam+)

Bron: https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp