DeepSeek wekt nieuwsgierigheid.

DeepSeek richt zich op onderzoek en ontwikkeling van nieuwe modellen, in plaats van regelmatig in de media te verschijnen. Foto: SCMP .

In samenwerking met onderzoekers van de Tsinghua Universiteit heeft DeepSeek een nieuwe methode geïntroduceerd om de inferentiemogelijkheden van grote taalmodellen (LLM's) te verbeteren. De methode, die op de avond van 4 april in een onderzoeksartikel werd gepubliceerd, helpt LLM's betere en snellere resultaten te leveren voor veelvoorkomende zoekopdrachten.

Deze techniek combineert twee eerder succesvolle methoden van DeepSeek. De ene is generatieve beloningsmodellering (GRM), waarmee het AI-model zichzelf kan evalueren en zijn reacties kan verfijnen op basis van eerdere resultaten, en de andere is zelfprincipiële kritische afstemming.

Beide methoden berusten op het 'zelflerende' aspect van AI, waardoor de afhankelijkheid van directe menselijke feedback of begeleiding afneemt, maar met als doel resultaten te leveren die beter aansluiten bij de menselijke verwachtingen.

Volgens onderzoekers behaalt DeepSeek-GRM, ondanks dat het een nieuwe methode is, uitstekende resultaten en kan het zich meten met de meest bekende en effectieve AI-modellen die momenteel beschikbaar zijn. DeepSeek is van plan om GRM-modellen open source te maken, maar er is nog geen specifiek tijdschema bekendgemaakt.

Nadat DeepSeek wereldwijd furore maakte met zijn V3-platformmodel en R1-inferentiemodel, publiceerde het bedrijf dit wetenschappelijke artikel op het online wetenschappelijke archief arXiv, wat de nieuwsgierigheid naar de volgende stappen van het bedrijf aanwakkerde.

Reuters voorspelt dat de DeepSeek-R2, de opvolger van de R1, in april gelanceerd zou kunnen worden, gezien de aanhoudende populariteit van zijn voorganger. De DeepSeek-R1 zorgde eerder voor een wereldwijde sensatie in de techwereld dankzij zijn superieure prestaties in verhouding tot de prijs, waardoor hij kon concurreren met de huidige toonaangevende modellen.

DeepSeek heeft zich stilgehouden over de geruchten. Volgens lokale bronnen heeft een medewerker van de klantenservice van DeepSeek de informatie echter ontkend in een groepschat met zakelijke klanten.

DeepSeek, opgericht in 2023 in Hangzhou door ondernemer Liang Wenfeng, heeft de afgelopen maanden snel wereldwijde aandacht getrokken. Maar in plaats van te profiteren van deze publieke bekendheid, richt het bedrijf zijn middelen op onderzoek en ontwikkeling.

DeepSeek heeft eerder zijn V3-model geüpgraded en versie DeepSeek-V3-0324 uitgebracht. Volgens de aankondiging bevat deze update verbeterde redeneermogelijkheden, optimalisatie voor de ontwikkeling van front-end webgebruikersinterfaces en verbeterde mogelijkheden voor het schrijven van Chinees.

In februari publiceerde de startup ook vijf code repositories als open source, waarmee het zijn streven naar "vooruitgang met volledige transparantie" bevestigde. In dezelfde maand kondigde het bedrijf een technisch onderzoek aan naar "native sparse attention", wat de prestaties van LLM's bij het verwerken van enorme hoeveelheden data kan verbeteren.

DeepSeek wordt gezien als een symbool van de dynamiek van de Chinese AI-industrie, in een tijd waarin de VS probeert de technologische ontwikkeling van het land te beteugelen.

Bron: https://znews.vn/deepseek-gay-to-mo-post1543900.html