Een bijzondere bijeenkomst waar wiskundigen proberen kunstmatige intelligentie te verslaan.

In een weekend midden mei vond een besloten bijeenkomst van wiskundigen plaats. Dertig van 's werelds meest vooraanstaande wiskundigen reisden in het geheim naar Berkeley, Californië, VS, om deel te nemen aan een confrontatie met een chatbot die in staat was tot "redeneren". Deze chatbot kreeg de opdracht om problemen op te lossen die door de wiskundigen zelf waren bedacht, om zo zijn probleemoplossend vermogen te testen.

Na twee dagen lang te zijn bestookt met vragen op professorniveau, waren wiskundigen stomverbaasd toen ze ontdekten dat deze chatbot enkele van de moeilijkste problemen uit de geschiedenis kon oplossen.

"Ik heb collega's ronduit horen zeggen dat dit grootschalige taalmodel het niveau van wiskundig genie benadert," vertelde Ken Ono, hoogleraar aan de Universiteit van Virginia en voorzitter en jurylid van de bijeenkomst, aan Scientific American.

De bovengenoemde chatbot is gebaseerd op o4-mini , een groot taalmodel (LLM) ontworpen voor complexe redeneringen. Dit product van OpenAI is getraind om geavanceerde redeneerstappen uit te voeren. Een vergelijkbaar model van Google, genaamd Gemini 2.5 Flash, beschikt ook over vergelijkbare mogelijkheden.

Net als eerdere ChatGPT LLM's leert o4-mini het volgende woord in een tekstreeks te voorspellen. Het verschil zit hem echter in het feit dat o4-mini een lichtere, flexibelere versie is, getraind op grote hoeveelheden data en nauwgezet afgestemd door mensen. Hierdoor kan het wiskundige problemen aanpakken die eerdere modellen niet aankonden.

Om de mogelijkheden van o4-mini te testen en te beoordelen, gaf OpenAI Epoch AI – een non-profitorganisatie die gespecialiseerd is in het testen van LLM-modellen – de opdracht om 300 nog niet eerder gepubliceerde wiskundige vraagstukken te ontwikkelen. Hoewel traditionele LLM's veel complexe problemen kunnen oplossen, losten de meeste ervan, wanneer ze met volledig nieuwe vraagstukken werden geconfronteerd, minder dan 2% correct op. Dit toont aan dat ze geen echt redeneervermogen bezitten.

Epoch AI heeft voor zijn nieuwste evaluatieproject de jonge wiskundige Elliot Glazer, die een doctoraat heeft behaald, aangesteld als projectleider. Het nieuwe project, genaamd FrontierMath , wordt in september 2024 gelanceerd.

Het project verzamelde nieuwe vragen op vier moeilijkheidsniveaus, variërend van bachelor- en masterniveau tot diepgaand onderzoek. In april 2025 ontdekte Glazer dat o4-mini ongeveer 20% van de problemen kon oplossen. Daarom verplaatste hij het programma onmiddellijk naar niveau 4 – waardoor het problemen moest oplossen waar zelfs zeer gevorderde wiskundigen moeite mee zouden hebben.

Deelnemers moesten een geheimhoudingsverklaring ondertekenen en mochten alleen communiceren via de versleutelde Signal-app, omdat het gebruik van e-mail kon worden gescand en de inhoud ervan door het LLM kon worden "geleerd", waardoor de evaluatiegegevens zouden worden vervalst.

Voor elk probleem dat o4-mini niet kan oplossen, ontvangt de probleemsteller een prijs van $7.500.

De eerste werkgroep kwam langzaam maar zeker met vragen. Glazer besloot echter de zaken te versnellen door op 17 en 18 mei een tweedaagse bijeenkomst te organiseren. Dertig wiskundigen namen deel, verdeeld in groepen van zes, die tegen elkaar streden – niet om problemen op te lossen, maar om problemen te bedenken die AI niet zou kunnen oplossen.

Tegen de avond van 17 mei begon Ken Ono zich gefrustreerd te voelen door de chatbot, die een wiskundig niveau vertoonde dat de verwachtingen ver overtrof, waardoor het voor het team moeilijk was om hem te "vangen". "Ik bedacht een probleem dat experts in de industrie zouden herkennen als een open probleem in de getaltheorie – een probleem dat geschikt is voor een doctoraat," vertelde hij.

Toen hij o4-mini om hulp vroeg, was hij dan ook stomverbaasd dat de chatbot binnen slechts 10 minuten de juiste oplossing analyseerde, beredeneerde en gaf. In de eerste twee minuten verzamelde de chatbot alle relevante informatie. Vervolgens stelde de chatbot voor om te experimenteren met een eenvoudigere versie van het probleem om de aanpak te leren kennen.

Vijf minuten later gaf de chatbot het juiste antwoord, met een zelfverzekerde – zelfs ietwat arrogante – toon. "Hij begon zich sluw te gedragen," vertelde Ono, "en voegde er zelfs aan toe: 'U hoeft niets te citeren, ik heb het mysterieuze getal al berekend!'"

Nadat hij op de ochtend van 18 mei de strijd tegen de AI had verloren, stuurde Ono direct een waarschuwingsbericht naar het team via Signal. "Ik was totaal niet voorbereid op een dergelijk model," zei hij. "Ik had nog nooit zo'n manier van redeneren in een computermodel gezien. Het dacht zoals een echte wetenschapper denkt. En dat was angstaanjagend."

Hoewel de wiskundigen er uiteindelijk in slaagden 10 vragen te vinden die o4-mini voor een raadsel stelden, konden ze hun verbazing over de snelheid waarmee AI zich in slechts één jaar had ontwikkeld niet verbergen.

Ono vergeleek de ervaring met o4-mini met de samenwerking met een buitengewoon getalenteerde collega. Yang Hui He, wiskundige aan het Institute for Mathematical Sciences in Londen en pionier in de toepassing van AI op de wiskunde, merkte op: "Dit is wat een zeer, zeer goede promovendus kan doen – zelfs meer dan dat."

Het is belangrijk om te weten dat AI veel sneller werkt dan mensen. Waar mensen weken of maanden nodig hebben om een probleem op te lossen, doet o4-mini dat in slechts enkele minuten.

De opwinding rond de intellectuele strijd met o4-mini ging gepaard met aanzienlijke bezorgdheid. Zowel Ono als He waarschuwden dat de mogelijkheden van o4-mini tot overmoed konden leiden. "We hebben bewijs door inductie, bewijs door tegenspraak, en nu bewijs door... overweldigende kracht," zei He. "Als je iets met voldoende zelfvertrouwen beweert, zullen anderen zich geïntimideerd voelen. Ik denk dat o4-mini dit soort bewijs perfect beheerst: wat het ook zegt, het is volkomen zeker."

Aan het einde van de bijeenkomst begonnen de wiskundigen na te denken over de toekomst van de wiskunde. Ze bespraken de mogelijkheid van een 'vijfde niveau' – vragen die zelfs de beste wiskundigen ter wereld niet kunnen oplossen. Als AI dat niveau bereikt, zal de rol van de wiskundige drastisch veranderen: ze zouden dan wellicht vragenstellers worden, die met AI interageren en deze begeleiden bij het ontdekken van nieuwe wiskundige waarheden – vergelijkbaar met hoe een professor met promovendi werkt.

"Ik zeg al een tijdje tegen mijn collega's dat het een grote vergissing zou zijn om aan te nemen dat algemene kunstmatige intelligentie nooit zal verschijnen, dat het gewoon een computer is," zei Ono. "Ik wil niet in paniek raken, maar in sommige opzichten presteren deze grote taalmodellen nu al beter dan de meeste van 's werelds beste promovendi."

(Vietnam+)

Bron: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp