Ett anmärkningsvärt möte där matematiker försöker besegra artificiell intelligens.

En helg i mitten av maj ägde ett möte med matematiker rum bakom stängda dörrar. Trettio av världens ledande matematiker reste i hemlighet till Berkeley, Kalifornien, USA, för att delta i en konfrontation med en chatbot som var kapabel att "resonera". Denna chatbot fick i uppdrag att lösa problem som matematikerna själva hade utarbetat, för att testa dess problemlösningsförmåga.

Efter att ha bombarderat dem med professorsfrågor i två dagar i rad, blev matematiker förvånade över att upptäcka att den här chatboten kunde lösa några av de svåraste problemen som någonsin lösts i historien.

”Jag har sett kollegor säga rakt ut att den här storskaliga språkmodellen närmar sig nivån av matematiskt geni”, sa Ken Ono, professor vid University of Virginia och ordförande och domare för mötet, till Scientific American.

Den tidigare nämnda chatboten är baserad på o4-mini , en stor språkmodell (LLM) utformad för komplext resonemang. Denna produkt från OpenAI är tränad att utföra sofistikerade resonemangssteg. En liknande modell från Google, kallad Gemini 2.5 Flash, har också liknande funktioner.

Liksom tidigare ChatGPT LLM-modeller lär sig o4-mini att förutsäga nästa ord i en textsträng. Skillnaden ligger dock i att o4-mini är en lättare och mer flexibel version, tränad på djupgående data och noggrann mänsklig anpassning – vilket gör att den kan fördjupa sig i matematiska problem som tidigare modeller inte kunde nå.

För att utmana och bedöma o4-minis kapacitet gav OpenAI Epoch AI – en ideell organisation som specialiserar sig på att testa LLM-modeller – i uppdrag att skapa 300 tidigare opublicerade matematiska frågor. Medan traditionella LLM-modeller kan lösa många komplexa problem, löste de flesta bara mindre än 2 % korrekt när de utmanades med helt nya frågor. Detta visar att de saknar verklig resonemangsförmåga.

I sitt senaste utvärderingsprojekt har Epoch AI rekryterat den unge matematikdoktorn Elliot Glazer som ledare. Det nya projektet, kallat FrontierMath , kommer att lanseras i september 2024.

Projektet samlade in nya frågor på fyra svårighetsgrader, från grundutbildning och forskarutbildning till fördjupad forskning. I april 2025 fann Glazer att o4-mini kunde lösa cirka 20 % av problemen. Därför flyttade han det omedelbart till nivå 4 – vilket krävde att det skulle lösa problem som även mycket avancerade matematiker skulle ha svårt med.

Deltagarna var tvungna att underteckna ett sekretessavtal och endast kommunicera via den krypterade Signal-appen, eftersom användningen av e-post kunde skannas och dess innehåll "läras in" av LLM:en, vilket därmed förfalskade utvärderingsdata.

För varje problem som o4-mini inte kan lösa får problemställaren ett pris på 7 500 dollar.

Den inledande arbetsgruppen var långsam men stadig med att komma fram till frågor. Glazer bestämde sig dock för att påskynda processen genom att organisera ett tvådagarsmöte den 17–18 maj. Trettio matematiker deltog, indelade i grupper om sex, som tävlade mot varandra – inte för att lösa problem, utan för att utforma problem som AI inte kunde lösa.

På kvällen den 17 maj började Ken Ono känna sig frustrerad över chatboten, som uppvisade en matematisk förmåga som vida överträffade förväntningarna, vilket gjorde det svårt för teamet att "fånga" den. "Jag kom på ett problem som branschexperter skulle känna igen som ett öppet problem inom talteori – ett problem som lämpar sig för en doktorsexamen", berättade han.

När han frågade o4-mini blev han därför chockad över att se chatboten analysera, resonera och ge rätt lösning på bara 10 minuter. Mer specifikt under de första två minuterna undersökte och tog den till sig allt relevant material. Sedan föreslog den att experimentera med en enklare version av problemet för att lära sig tillvägagångssättet.

Fem minuter senare gav chatboten rätt svar, åtföljt av en självsäker – till och med något arrogant – ton. ”Den började bete sig listigt”, berättade Ono, ”Och den tillade till och med: ’Inget behov av att citera, jag har redan beräknat det mystiska numret!’”

Efter att ha misslyckats med AI:n skickade Ono omedelbart ett varningsmeddelande till teamet via Signal på morgonen den 18 maj. ”Jag var helt oförberedd på att hantera en modell som denna”, sa han. ”Jag hade aldrig sett den här typen av resonemang i en datormodell. Den tänkte som en riktig forskare tänker. Och det var skrämmande.”

Även om matematikerna så småningom lyckades hitta 10 frågor som förbryllade o4-mini, kunde de inte dölja sin förvåning över hastigheten på AI-utvecklingen på bara ett år.

Ono jämförde erfarenheten av att arbeta med o4-mini med att samarbeta med en extremt begåvad kollega. Yang Hui He, matematiker vid Institute for Mathematical Sciences i London och en pionjär inom tillämpning av AI i matematik, kommenterade: ”Det här är vad en mycket, mycket duktig doktorand kan göra – ännu mer än så.”

Och det är värt att notera att AI fungerar mycket snabbare än människor. Medan det tar människor veckor eller månader att lösa, tar o4-mini bara några minuter.

Spänningen kring den intellektuella kampen med o4-mini åtföljdes av avsevärd oro. Både Ono och He varnade för att o4-minis förmågor kunde leda till överdriven självsäkerhet. ”Vi har bevis genom induktion, bevis genom motsägelse, och nu bevis genom… överväldigande kraft”, sa He. ”Om man påstår något med tillräckligt stor säkerhet kommer andra att känna sig skrämda. Jag tror att o4-mini har bemästrat den här typen av bevis: vad det än säger är mycket säkert.”

När mötet avslutades började matematikerna fundera över matematikens framtid. De diskuterade möjligheten av en "femte nivå" – frågor som inte ens världens bästa matematiker kan lösa. Om AI når den nivån kommer matematikerns roll att förändras dramatiskt: de kan då bli frågeställare, interagera med och vägleda AI i dess resonemang för att upptäcka nya matematiska sanningar – ungefär som hur en professor arbetar med doktorander.

”Jag har sagt till mina kollegor ett tag nu att det vore ett allvarligt misstag att anta att allmän artificiell intelligens aldrig kommer att dyka upp, att det bara är en dator”, sa Ono. ”Jag vill inte få panik, men i vissa avseenden har dessa stora språkmodeller redan börjat överträffa de flesta av världens bästa doktorander.”

Kommentar (0)