En helg i mitten av maj ägde ett hemligt möte rum inom matematikens värld. 30 av världens ledande matematiker reste i hemlighet till Berkeley, Kalifornien, USA, för att delta i en konfrontation med en chatbot som var kapabel att "resonera". Chatboten fick i uppdrag att lösa problem skrivna av matematiker själva, för att testa dess problemlösningsförmåga.
Efter två dagar av kontinuerligt utlösande av professorsfrågor blev matematiker förvånade över att inse att den här chatboten kunde lösa några av de svåraste problemen som någonsin lösts i historien.
”Jag såg kollegor säga rakt ut att den här stora språkmodellen närmar sig nivån av matematiskt geni”, sa Ken Ono, professor vid University of Virginia och mötets ordförande och domare, till Scientific American.
Chatboten som fångade vår uppmärksamhet drivs av o4-mini , en stor språkmodell (LLM) designad för komplext resonemang. Den är en produkt av OpenAI och är tränad att utföra sofistikerat resonemang. Motsvarande modell från Google, Gemini 2.5 Flash, har liknande funktioner.
Liksom tidigare ChatGPT LLM-modeller lär sig o4-mini att förutsäga nästa ord i en textsträng. O4-mini är dock en lättare och mer flexibel version som är tränad på djupgående data och noggrant anpassad av människor – vilket gör att den kan fördjupa sig i matematiska problem som tidigare modeller inte kunde nå.
För att testa o4-minis förmågor bad OpenAI Epoch AI, en ideell organisation som specialiserar sig på att testa LLM-modeller, att skapa 300 tidigare opublicerade matematiska frågor. Medan traditionella LLM-modeller kan lösa många komplexa problem, fick de flesta mindre än 2 % rätt när de ställdes inför helt nya frågor, vilket tyder på att de inte riktigt var kapabla att resonera.
I det nya utvärderingsprojektet rekryterade Epoch AI den unge matematikern Dr. Elliot Glazer som ledare. Det nya projektet, kallat FrontierMath , kommer att driftsättas från och med september 2024.
Projektet samlar in nya frågor på fyra svårighetsgrader, från grundutbildning, forskarutbildning till avancerad forskning. I april 2025 upptäckte Glazer att o4-mini kunde lösa cirka 20 % av problemen. Så han gick hela vägen till nivå 4 – och bad den lösa problem som även avancerade matematiker skulle ha svårt med.
Deltagarna tvingades skriva på ett sekretessavtal och kunde endast kommunicera via den krypterade appen Signal, eftersom användning av e-post kunde göra det möjligt för LLM att skanna och "sniffa" innehållet och därmed förfalska utvärderingsdata.
Varje problem som o4-mini inte kan lösa ger frågeställaren ett pris på 7 500 USD.
Det ursprungliga teamet gjorde långsamma men stadiga framsteg med att komma fram till frågor. Men Glazer bestämde sig för att påskynda arbetet genom att hålla ett personligt möte den 17–18 maj. De 30 deltagande matematikerna delades in i grupper om sex personer, som tävlade mot varandra – inte för att lösa problem, utan för att komma fram till problem som AI inte kunde lösa.
På kvällen den 17 maj började Ken Ono bli frustrerad över chatboten, som visade en nivå av matematisk skicklighet långt över vad som förväntades, vilket gjorde det svårt för teamet att "fånga" den. "Jag kom på ett problem som experter inom området skulle känna igen som ett öppet problem inom talteori – ett problem som lämpar sig för en doktorsexamen", sa han.
När han frågade o4-mini blev han därför chockad över att se chatboten analysera, resonera och komma fram till rätt lösning på bara 10 minuter. Mer specifikt lärde och förstod den under de första två minuterna alla relevanta dokument. Sedan föreslog den att prova en enklare version av problemet för att lära sig hur man skulle närma sig det.
Fem minuter senare gav chatboten rätt svar med en självsäker – till och med arrogant – ton. ”Det började bli fräckt”, säger Ono, ”och tillade: ’Inget behov av en offert eftersom jag har listat ut det hemliga numret!’”
Tidigt på morgonen den 18 maj, besegrad av AI:n, skickade Ono omedelbart ett varningsmeddelande till teamet via Signal. ”Jag var helt oförberedd på att hantera en modell som denna”, sa han. ”Jag hade aldrig sett den här typen av resonemang i en datormodell. Det var att tänka som en riktig forskare skulle tänka. Och det var skrämmande.”
Även om matematikerna slutligen lyckades hitta 10 frågor som lämnade o4-mini förbluffade, kunde de fortfarande inte dölja sin chock över hastigheten på AI:s utveckling på bara ett år.
Ono jämför erfarenheten av att arbeta med o4-mini med att samarbeta med en mycket begåvad kollega. Och Yang Hui He, matematiker vid London Institute of Mathematical Sciences och en pionjär inom tillämpning av AI i matematik, kommenterar: ”Det här är vad en mycket, mycket begåvad doktorand kan göra – och ännu mer.”
Och det bör noteras att AI gör det mycket snabbare än människor. Medan det tar människor veckor eller månader att lösa det, tar o4-mini bara några minuter.
Spänningen kring o4-mini är inte utan oro. Både Ono och He varnar för att o4-minis kapacitet kan göra folk övermodiga. ”Vi har bevis genom induktion, bevis genom motsägelse, och nu bevis genom… överväldigande”, säger He. ”Om man säger något med tillräckligt stor säkerhet kommer folk att bli skrämda. Jag tror att o4-mini har bemästrat den här typen av bevis: den säger allt med stor säkerhet.”
När mötet avslutades började matematikerna fundera över matematikens framtid. De diskuterade möjligheten av en "femte nivå" – frågor som inte ens världens bästa matematiker kan lösa. Om AI når den tröskeln kommer matematikernas roll att förändras dramatiskt: kanske kommer de att bli frågeställare, interagera med och vägleda AI:s resonemang för att upptäcka nya matematiska sanningar – ungefär som en professor arbetar med en doktorand.
”Jag har länge sagt till mina kollegor att det vore ett stort misstag att tro att generell AI aldrig kommer att hända, att det bara är en dator”, sa Ono. ”Jag vill inte få panik, men på sätt och vis börjar dessa stora språkmodeller redan överträffa de flesta av världens bästa doktorander.”
Källa: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Kommentar (0)