En helg i midten av mai fant et hemmelig møte sted i matematikkens verden. 30 av verdens ledende matematikere reiste i all hemmelighet til Berkeley i California, USA, for å delta i en konfrontasjon med en chatbot som var i stand til å «resonnere». Chatboten fikk i oppgave å løse problemer skrevet av matematikerne selv, for å teste dens problemløsningsevner.
Etter to dager med kontinuerlig avfyring av spørsmål på professornivå, ble matematikere overrasket over å innse at denne chatboten kunne løse noen av de vanskeligste problemene som noen gang er løst i historien.
«Jeg så kolleger si rett ut at denne store språkmodellen nærmer seg nivået av matematisk geni», fortalte Ken Ono, professor ved University of Virginia og møteleder og dommer, til Scientific American.
Chatboten som fanget oppmerksomheten vår drives av o4-mini , en stor språkmodell (LLM) designet for kompleks resonnering. Den er et produkt av OpenAI og er trent til å utføre sofistikert resonnering. Den tilsvarende modellen fra Google, Gemini 2.5 Flash, har lignende funksjoner.
I likhet med tidligere ChatGPT LLM-er lærer o4-mini å forutsi det neste ordet i en tekststreng. O4-mini er imidlertid en lettere og mer fleksibel versjon som er trent på dypdata og nøye justert av mennesker – noe som gjør at den kan fordype seg i matematiske problemer som tidligere modeller ikke kunne nå.
For å teste o4-minis evner ba OpenAI Epoch AI, en ideell organisasjon som spesialiserer seg på testing av LLM-modeller, om å lage 300 tidligere upubliserte matematiske spørsmål. Mens tradisjonelle LLM-er kan løse mange komplekse problemer, fikk de fleste av dem mindre enn 2 % riktig når de ble utfordret med helt nye spørsmål, noe som tyder på at de ikke var helt i stand til å resonnere.
I det nye evalueringsprosjektet rekrutterte Epoch AI den unge matematikeren Dr. Elliot Glazer som leder. Det nye prosjektet, kalt FrontierMath , vil bli tatt i bruk fra september 2024.
Prosjektet samler nye spørsmål på fire vanskelighetsnivåer, fra bachelorgrad, mastergrad til avansert forskning. Innen april 2025 fant Glazer ut at o4-mini kunne løse omtrent 20 % av problemene. Så han gikk helt opp til nivå 4 – og ba den løse problemer som selv avanserte matematikere ville slite med.
Deltakerne ble tvunget til å signere en taushetserklæring og kunne bare kommunisere via den krypterte appen Signal, ettersom bruk av e-post kunne tillate LLM å skanne og «sniffe» innholdet, og dermed forfalske evalueringsdataene.
Hvert problem som o4-mini ikke kan løse, vil gi spørsmålsstilleren en premie på 7500 USD.
Det første teamet gjorde sakte, men jevne fremskritt med å komme opp med spørsmål. Men Glazer bestemte seg for å få fortgang ved å holde et personlig møte 17.–18. mai. De 30 deltakende matematikerne ble delt inn i grupper på seks, som konkurrerte mot hverandre – ikke for å løse problemer, men for å komme opp med problemer som AI ikke kunne løse.
Om kvelden 17. mai begynte Ken Ono å bli frustrert over chatboten, som viste et nivå av matematisk ferdighet langt utover det som var forventet, noe som gjorde det vanskelig for teamet å «fange» den. «Jeg kom opp med et problem som eksperter på feltet ville gjenkjenne som et åpent problem i tallteori – et problem som passer for en doktorgrad», sa han.
Som et resultat, da han spurte o4-mini, ble han lamslått over å se chatboten analysere, resonnere og komme opp med den riktige løsningen på bare 10 minutter. Mer spesifikt, i løpet av de første to minuttene lærte og forsto den alle relevante dokumentene. Deretter foreslo den å prøve en enklere versjon av problemet for å lære hvordan den skulle gripe an.
Fem minutter senere ga chatboten det riktige svaret, med en selvsikker – til og med arrogant – tone. «Det begynte å bli frekt», sier Ono, «og den la til: ‘Ingen behov for et tilbud, for jeg fant ut det hemmelige nummeret!’»
Tidlig om morgenen 18. mai, etter å ha blitt beseiret av AI-en, sendte Ono umiddelbart en advarsel til teamet via Signal. «Jeg var fullstendig uforberedt på å håndtere en modell som denne», sa han. «Jeg hadde aldri sett denne typen resonnement i en datamodell. Det var å tenke slik en ekte forsker ville tenkt. Og det var skremmende.»
Selv om matematikerne endelig klarte å finne 10 spørsmål som forvirret o4-mini, kunne de likevel ikke skjule sjokket over hastigheten på AI-utviklingen på bare ett år.
Ono sammenligner opplevelsen av å jobbe med o4-mini med å samarbeide med en svært talentfull kollega. Og Yang Hui He, matematiker ved London Institute of Mathematical Sciences og en pioner innen bruk av kunstig intelligens i matematikk, kommenterer: «Dette er hva en svært, svært talentfull doktorgradsstudent kan gjøre – og enda mer.»
Og det bør bemerkes at AI gjør det mye raskere enn mennesker. Mens det tar mennesker uker eller måneder å løse det, tar o4-mini bare noen få minutter.
Begeistringen rundt o4-mini er ikke uten bekymringer. Både Ono og He advarer om at o4-minis evner kan gjøre folk overmodige. «Vi har bevis ved induksjon, bevis ved selvmotsigelse, og nå bevis ved ... overveldende», sier He. «Hvis du sier noe med nok selvtillit, vil folk bli skremt. Jeg tror o4-mini har mestret denne typen bevis: den sier alt med stor selvtillit.»
Da møtet var over, begynte matematikerne å tenke på matematikkens fremtid. De diskuterte muligheten for et «femte nivå» – spørsmål som selv verdens beste matematikere ikke kan løse. Hvis AI når denne terskelen, vil matematikernes rolle endre seg dramatisk: kanskje vil de bli spørsmålsstillere, som samhandler med og veileder AI-resonnement for å oppdage nye matematiske sannheter – på samme måte som en professor jobber med en masterstudent.
«Jeg har lenge sagt til kollegene mine at det ville være en stor feil å tro at generell kunstig intelligens aldri vil skje, at det bare er en datamaskin», sa Ono. «Jeg vil ikke få panikk, men på noen måter begynner disse store språkmodellene allerede å overgå de fleste av verdens beste doktorgradsstudenter.»
Kilde: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Kommentar (0)