Op een weekend midden mei vond er een geheime bijeenkomst van de wiskundige wereld plaats. Dertig van 's werelds meest vooraanstaande wiskundigen reisden in het geheim af naar Berkeley, Californië, VS, voor een confrontatie met een chatbot die kon "redeneren". De chatbot kreeg de opdracht om problemen op te lossen die door wiskundigen zelf waren geschreven, om zijn probleemoplossend vermogen te testen.
Nadat ze twee dagen lang voortdurend vragen op professorniveau hadden gesteld, kwamen wiskundigen er tot hun verbazing achter dat deze chatbot een aantal van de moeilijkste problemen uit de geschiedenis kon oplossen.
"Ik heb collega's ronduit horen zeggen dat dit grote taalmodel het niveau van wiskundig genie nadert", vertelde Ken Ono, hoogleraar aan de Universiteit van Virginia en voorzitter en jurylid van de bijeenkomst, aan Scientific American.
De chatbot die onze aandacht trok, draait op o4-mini , een groot taalmodel (LLM) dat is ontworpen voor complexe redeneringen. Het is een product van OpenAI en is getraind om geavanceerde redeneringen uit te voeren. Het equivalente model van Google, Gemini 2.5 Flash, heeft vergelijkbare mogelijkheden.
Net als eerdere ChatGPT LLM's leert o4-mini het volgende woord in een tekststring te voorspellen. o4-mini is echter een lichtere, flexibelere versie, getraind op diepgaande data en nauwkeurig afgestemd door mensen, waardoor het wiskundige problemen kan oplossen die eerdere modellen niet aankonden.
Om de mogelijkheden van de o4-mini te testen, vroeg OpenAI Epoch AI, een non-profitorganisatie die gespecialiseerd is in het testen van LLM-modellen, om 300 eerder niet-gepubliceerde wiskundige vragen te bedenken. Traditionele LLM's kunnen weliswaar veel complexe problemen oplossen, maar wanneer ze volledig nieuwe vragen kregen, hadden de meesten minder dan 2% correct, wat suggereert dat ze niet echt in staat waren tot redeneren.
In het nieuwe evaluatieproject heeft Epoch AI de jonge wiskundige Dr. Elliot Glazer als leider aangetrokken. Het nieuwe project, genaamd FrontierMath , zal vanaf september 2024 van start gaan.
Het project verzamelt nieuwe vragen op vier moeilijkheidsniveaus, van bachelor, master tot gevorderd onderzoek. In april 2025 ontdekte Glazer dat de o4-mini ongeveer 20% van de problemen kon oplossen. Dus ging hij helemaal door naar niveau 4 en vroeg de o4-mini om problemen op te lossen waar zelfs gevorderde wiskundigen moeite mee zouden hebben.
Deelnemers werden gedwongen een geheimhoudingsverklaring te ondertekenen en konden alleen communiceren via de versleutelde app Signal. Via e-mail zou LLM de inhoud namelijk kunnen scannen en ‘snuiven’, waardoor de evaluatiegegevens vervalst zouden worden.
Voor elk probleem dat o4-mini niet kan oplossen, ontvangt de ondervrager een prijs van 7.500 USD.
Het eerste team boekte langzaam maar gestaag vooruitgang in het bedenken van vragen. Maar Glazer besloot de zaken te versnellen door op 17 en 18 mei een fysieke bijeenkomst te houden. De 30 deelnemende wiskundigen werden verdeeld in groepen van zes en streden tegen elkaar – niet om problemen op te lossen, maar om problemen te bedenken die AI niet kon oplossen.
Tegen de avond van 17 mei begon Ken Ono gefrustreerd te raken door de chatbot, die een niveau van wiskundige vaardigheid liet zien dat ver boven verwachting lag, waardoor het voor het team moeilijk was om hem te 'vangen'. "Ik bedacht een probleem dat experts in het vakgebied zouden herkennen als een openstaand probleem in de getaltheorie – een probleem geschikt voor een PhD", zei hij.
Toen hij o4-mini om hulp vroeg, was hij dan ook verbijsterd toen hij zag dat de chatbot in slechts 10 minuten analyseerde, redeneerde en met de juiste oplossing kwam. Concreet: in de eerste twee minuten leerde en begreep hij alle relevante documenten. Vervolgens stelde hij voor om een eenvoudigere versie van het probleem te proberen om te leren hoe het aan te pakken.
Vijf minuten later gaf de chatbot het juiste antwoord, met een zelfverzekerde – zelfs arrogante – toon. "Het werd brutaal," zegt Ono, "en voegde eraan toe: 'Geen citaat nodig, want ik heb het geheime nummer ontdekt!'"
Verslagen door de AI, stuurde Ono in de vroege ochtend van 18 mei onmiddellijk een waarschuwing naar het team via Signal. "Ik was totaal niet voorbereid op zo'n model", zei hij. "Ik had dit soort redeneringen nog nooit in een computermodel gezien. Het was denken zoals een echte wetenschapper zou denken. En dat was eng."
Hoewel de wiskundigen er uiteindelijk in slaagden om 10 vragen te vinden waar de o4-mini geen antwoord op had, konden ze hun verbazing over de snelheid waarmee AI zich in slechts één jaar ontwikkelde, niet verbergen.
Ono vergelijkt de ervaring van het werken met o4-mini met samenwerken met een zeer getalenteerde collega. En Yang Hui He, wiskundige aan het London Institute of Mathematical Sciences en een pionier in het toepassen van AI op wiskunde, merkt op: "Dit is wat een zeer, zeer getalenteerde promovendus kan doen – en zelfs meer."
En het is belangrijk om te weten dat AI dit veel sneller doet dan mensen. Terwijl het mensen weken of maanden kost om het op te lossen, heeft o4-mini er slechts een paar minuten voor nodig.
De opwinding rond de o4-mini is niet zonder zorgen. Zowel Ono als He waarschuwen dat de mogelijkheden van de o4-mini mensen overmoedig kunnen maken. "We hebben bewijs door inductie, bewijs door tegenspraak, en nu bewijs door... overweldigend," zegt He. "Als je iets met voldoende overtuiging zegt, raken mensen geïntimideerd. Ik denk dat de o4-mini dit soort bewijs beheerst: hij zegt alles met grote zekerheid."
Aan het einde van de bijeenkomst begonnen de wiskundigen na te denken over de toekomst van de wiskunde. Ze bespraken de mogelijkheid van een 'vijfde niveau' – vragen die zelfs de beste wiskundigen ter wereld niet kunnen beantwoorden. Als AI die drempel bereikt, zal de rol van wiskundigen drastisch veranderen: misschien worden ze vragenstellers, die met AI interacteren en haar redeneringen begeleiden om nieuwe wiskundige waarheden te ontdekken – vergelijkbaar met de manier waarop een professor met een promovendus werkt.
"Ik zeg al lang tegen mijn collega's dat het een enorme vergissing zou zijn om te denken dat algemene AI nooit zal bestaan, dat het slechts een computer is", zei Ono. "Ik wil niet in paniek raken, maar in sommige opzichten beginnen deze grote taalmodellen de meeste van 's werelds beste promovendi al te overtreffen."
Bron: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Reactie (0)