DeepSeek slår rekorder

DeepseekMath-V2-modellen oppnår imponerende ytelse i løsning av matematiske problemer. Foto: Decoder .

Deepseek har nettopp annonsert sin DeepseekMath-V2-modell, som har oppnådd resultater på gullmedaljenivå i en rekke prestisjetunge matematikkonkurranser. Dette trekket setter det kinesiske selskapet i direkte konkurranse med ledende amerikanske AI-laboratorier, som er ledende innen språkmodellresonnement.

I følge den tekniske dokumentasjonen oppnådde DeepseekMath-V2 resultater på gullnivå ved den internasjonale matematiske olympiaden (IMO) i 2025 og den kinesiske CMO-en i 2024. I Putnam-eksamenen scoret modellen 118/120 poeng, noe som langt oversteg 90-poengsgrensen for den menneskelige deltakeren med høyest poengsum i historien. Disse resultatene er et bevis på dens evne til å håndtere komplekse problemer.

Det kinesiske selskapet forklarte at begrensningen ved tidligere AI-modeller var at selv om de kunne gi riktige svar, kunne de ikke presentere gyldige løsninger. For å overvinne dette bruker DeepseekMath-V2 en flertrinnsprosess som inkluderer evaluering av korrekthet, sjekk av motargumenter og presentasjon av det endelige resultatet. Denne arbeidsmåten lar systemet selvevaluere og forbedre løsninger i sanntid, og unngå situasjoner med riktige konklusjoner, men feil resonnement.

Det er verdt å merke seg at Deepseeks dokumentasjon ikke nevner modellens bruk av eksterne verktøy som datamaskiner eller tolker. Testoppsettet viser at alle resultater genereres utelukkende på naturlig språk.

Deepseek understreker at ytelsesgevinstene kommer fra evnen til å selvkritisere og selvkorrigere løsninger, uten å være avhengig av spesialisert matematisk programvare. For vanskelige problemer skalerer systemet opp beregningen ved å generere flere løsninger parallelt, og dermed øke påliteligheten til det endelige resultatet.

Lanseringen av DeepseekMath-V2 kommer kort tid etter at OpenAI og Google DeepMind annonserte at deres upubliserte modeller også vant gullmedaljer på IMO, en bragd som tidligere var utenfor kapasiteten til store språkmodeller. Informasjonen om disse systemene er imidlertid for øyeblikket svært begrenset, bortsett fra at en OpenAI-forsker sa at en matematisk kraftigere versjon vil være tilgjengelig i løpet av de kommende månedene.

I motsetning til hemmelighold hos amerikanske selskaper har Deepseek valgt å publisere detaljer om sine metoder og tekniske arkitektur. Denne tilnærmingen lar selskapet demonstrere åpenhet samtidig som den skaper konkurransepress på det amerikanske AI-økosystemet. Ifølge The Economist har noen amerikanske oppstartsbedrifter vurdert å bytte til den rimelige åpen kildekode-modellen fra Kina for å spare kostnader.

Kilde: https://znews.vn/deepseek-pha-ky-luc-post1606990.html