En helg i midten av mai fant et lukket møte for matematikere sted. Tretti av verdens ledende matematikere reiste i all hemmelighet til Berkeley i California i USA for å delta i en konfrontasjon med en chatbot som var i stand til å «resonnere». Denne chatboten fikk i oppgave å løse problemer som matematikerne selv hadde utviklet, for å teste dens problemløsningsevner.
Etter to dager på rad med bombardement av spørsmål på professornivå, ble matematikerne forbløffet over å oppdage at denne chatboten kunne løse noen av de vanskeligste problemene som noen gang er løst i historien.
«Jeg har sett kolleger si rett ut at denne storskala språkmodellen nærmer seg nivået av matematisk geni», sa Ken Ono, professor ved University of Virginia og møteleder og dommer, til Scientific American.
Den nevnte chatboten er basert på o4-mini , en stor språkmodell (LLM) designet for kompleks resonnering. Dette produktet fra OpenAI er trent til å utføre sofistikerte resonneringstrinn. En lignende modell fra Google, kalt Gemini 2.5 Flash, har også lignende funksjoner.
I likhet med tidligere ChatGPT LLM-er lærer o4-mini å forutsi det neste ordet i en tekststreng. Forskjellen ligger imidlertid i at o4-mini er en lettere og mer fleksibel versjon, trent på dypdata og nøye menneskelig justering – slik at den kan fordype seg i matematiske problemer som tidligere modeller ikke kunne nå.
For å utfordre og vurdere egenskapene til o4-mini, ga OpenAI Epoch AI – en ideell organisasjon som spesialiserer seg på testing av LLM-modeller – i oppdrag å lage 300 tidligere upubliserte matematiske spørsmål. Mens tradisjonelle LLM-er kan løse mange komplekse problemer, løste de fleste bare mindre enn 2 % riktig når de ble utfordret med helt nye spørsmål. Dette viser at de mangler reell resonneringsevne.
I sitt siste evalueringsprosjekt har Epoch AI rekruttert den unge matematiker-doktorgraden Elliot Glazer som leder. Det nye prosjektet, kalt FrontierMath , lanseres i september 2024.
Prosjektet samlet inn nye spørsmål på tvers av fire vanskelighetsnivåer, alt fra bachelor- og mastergrad til dyptgående forskning. I april 2025 fant Glazer ut at o4-mini kunne løse omtrent 20 % av problemene. Derfor flyttet han det umiddelbart til nivå 4 – noe som krevde at det skulle løse problemer som selv svært avanserte matematikere ville slite med.
Deltakerne måtte signere en taushetserklæring om kun å kommunisere via den krypterte Signal-appen, ettersom bruken av e-post kunne skannes og innholdet «læres» av LLM, og dermed forfalske evalueringsdata.
For hvert problem som o4-mini ikke kan løse, vil problemstilleren motta en premie på 7500 dollar.
Den første arbeidsgruppen var treg, men stødig med å komme opp med spørsmål. Glazer bestemte seg imidlertid for å få fortgang ved å organisere et todagers personlig møte 17.–18. mai. Tretti matematikere deltok, delt inn i grupper på seks, som konkurrerte mot hverandre – ikke for å løse problemer, men for å utvikle problemer som AI ikke kunne løse.
Om kvelden 17. mai begynte Ken Ono å bli frustrert over chatboten, som viste et nivå av matematiske evner som langt overgikk forventningene, noe som gjorde det vanskelig for teamet å «fange» den. «Jeg kom opp med et problem som bransjeeksperter ville gjenkjenne som et åpent problem i tallteori – et problem som passer for en doktorgrad», fortalte han.
Som et resultat, da han spurte o4-mini, ble han lamslått over å se chatboten analysere, resonnere og gi den riktige løsningen på bare 10 minutter. Mer spesifikt, i løpet av de første to minuttene undersøkte og forstod den alt relevant materiale. Deretter foreslo den å eksperimentere med en enklere versjon av problemet for å lære tilnærmingen.
Fem minutter senere ga chatboten det riktige svaret, ledsaget av en selvsikker – til og med noe arrogant – tone. «Den begynte å oppføre seg slu», fortalte Ono, «og den la til: ‘Du trenger ikke å sitere, jeg har allerede beregnet det mystiske tallet!’»
Etter å ha mislyktes mot AI-en, sendte Ono umiddelbart en varselmelding til teamet via Signal morgenen 18. mai. «Jeg var fullstendig uforberedt på å håndtere en modell som denne», sa han. «Jeg hadde aldri sett denne typen resonnement i en datamodell. Den tenkte som en ekte forsker tenker. Og det var skremmende.»
Selv om matematikerne til slutt klarte å finne 10 spørsmål som forvirret o4-mini, kunne de ikke skjule sin forbauselse over hastigheten AI-utviklingen hadde på bare ett år.
Ono sammenlignet opplevelsen av å jobbe med o4-mini med å samarbeide med en ekstremt talentfull kollega. Yang Hui He, matematiker ved Institute for Mathematical Sciences i London og en pioner innen bruk av kunstig intelligens i matematikk, kommenterte: «Dette er hva en veldig, veldig god masterstudent kan gjøre – enda mer enn det.»
Og det er verdt å merke seg at AI fungerer mye raskere enn mennesker. Mens det tar mennesker uker eller måneder å løse det, tar o4-mini bare noen få minutter.
Spenningen rundt den kløktige kampen med o4-mini ble ledsaget av betydelig bekymring. Både Ono og He advarte om at o4-minis evner kunne føre til overdreven selvtillit. «Vi har bevis ved induksjon, bevis ved selvmotsigelse, og nå bevis ved ... overveldende kraft», sa He. «Hvis du sier noe med nok sikkerhet, vil andre føle seg skremt. Jeg tror o4-mini har mestret denne typen bevis: uansett hva det sier, er det veldig sikkert.»
Da møtet var over, begynte matematikerne å tenke over matematikkens fremtid. De diskuterte muligheten for et «femte nivå» – spørsmål som selv verdens beste matematikere ikke kan løse. Hvis AI når det nivået, vil matematikerens rolle endre seg dramatisk: de kan da bli spørsmålsstillere, som samhandler med og veileder AI i dens resonnement for å oppdage nye matematiske sannheter – på samme måte som en professor jobber med masterstudenter.
«Jeg har fortalt kollegene mine en stund nå at det ville være en alvorlig feil å anta at generell kunstig intelligens aldri vil dukke opp, at det bare er en datamaskin», sa Ono. «Jeg vil ikke få panikk, men på noen måter har disse store språkmodellene allerede begynt å utkonkurrere de fleste av verdens beste studenter på masternivå.»
Kilde: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Kommentar (0)