An einem Wochenende Mitte Mai fand ein Treffen von Mathematikern unter Ausschluss der Öffentlichkeit statt. Dreißig der weltweit führenden Mathematiker reisten heimlich nach Berkeley, Kalifornien, USA, um sich einem Chatbot zu stellen, der zum logischen Denken fähig war. Dieser Chatbot sollte von den Mathematikern selbst entwickelte Probleme lösen, um seine Problemlösungsfähigkeiten zu testen.
Nachdem sie zwei Tage hintereinander mit Fragen auf Professorenniveau bombardiert worden waren, stellten die Mathematiker erstaunt fest, dass dieser Chatbot einige der schwierigsten Probleme lösen konnte, die jemals in der Geschichte gelöst wurden.
„Ich habe Kollegen sagen hören, dass dieses groß angelegte Sprachmodell sich dem Niveau mathematischer Genialität annähert“, sagte Ken Ono, Professor an der University of Virginia und Vorsitzender sowie Juror der Konferenz, gegenüber Scientific American.
Der erwähnte Chatbot basiert auf o4-mini , einem großen Sprachmodell (LLM), das für komplexes Denken entwickelt wurde. Dieses Produkt von OpenAI ist darauf trainiert, anspruchsvolle Schlussfolgerungen zu ziehen. Ein ähnliches Modell von Google, Gemini 2.5 Flash, verfügt ebenfalls über vergleichbare Fähigkeiten.
Wie frühere ChatGPT-LLMs lernt auch o4-mini, das nächste Wort in einem Textstring vorherzusagen. Der Unterschied liegt jedoch darin, dass o4-mini eine schlankere und flexiblere Version ist, die mit umfangreichen Daten trainiert und von Experten feinabgestimmt wurde. Dadurch kann sie mathematische Probleme angehen, die für frühere Modelle unzugänglich waren.
Um die Leistungsfähigkeit von o4-mini zu testen und zu bewerten, beauftragte OpenAI Epoch AI – eine gemeinnützige Organisation, die sich auf das Testen von LLM-Modellen spezialisiert hat – mit der Erstellung von 300 bisher unveröffentlichten mathematischen Aufgaben. Während traditionelle LLMs viele komplexe Probleme lösen können, erreichten die meisten von ihnen bei völlig neuen Aufgaben nur eine Trefferquote von unter 2 %. Dies zeigt, dass ihnen echtes logisches Denkvermögen fehlt.
Für sein neuestes Evaluierungsprojekt hat Epoch AI den jungen Mathematiker und Doktoranden Elliot Glazer als Projektleiter gewonnen. Das neue Projekt mit dem Namen FrontierMath startet im September 2024.
Das Projekt sammelte neue Aufgaben in vier Schwierigkeitsstufen, von Bachelor- und Masteraufgaben bis hin zu vertiefenden Forschungsarbeiten. Im April 2025 stellte Glazer fest, dass o4-mini etwa 20 % der Aufgaben lösen konnte. Daher stufte er es umgehend auf Stufe 4 hoch – mit der Anforderung, Aufgaben zu lösen, die selbst hochqualifizierte Mathematiker vor Herausforderungen stellen.
Die Teilnehmer mussten eine Vertraulichkeitsvereinbarung unterzeichnen und durften nur über die verschlüsselte Signal-App kommunizieren, da die Nutzung von E-Mails gescannt und deren Inhalt vom LLM "erlernt" werden konnte, wodurch die Auswertungsdaten verfälscht würden.
Für jede Aufgabe, die o4-mini nicht lösen kann, erhält der Aufgabensteller einen Preis in Höhe von 7.500 US-Dollar.
Die anfängliche Arbeitsgruppe entwickelte zwar langsam, aber stetig Fragestellungen. Glazer beschloss jedoch, das Verfahren zu beschleunigen und organisierte am 17. und 18. Mai ein zweitägiges Präsenztreffen. Dreißig Mathematiker nahmen teil, aufgeteilt in Sechsergruppen, die gegeneinander antraten – nicht um Probleme zu lösen, sondern um Probleme zu entwickeln, die KI nicht lösen konnte.
Am Abend des 17. Mai begann Ken Ono, frustriert über den Chatbot zu sein, der mathematische Fähigkeiten an den Tag legte, die seine Erwartungen weit übertrafen und es dem Team erschwerten, ihn zu „fangen“. „Ich hatte ein Problem formuliert, das Branchenexperten als ungelöstes Problem der Zahlentheorie erkennen würden – ein Problem, das sich für eine Doktorarbeit eignet“, erzählte er.
Als er o4-mini daraufhin kontaktierte, war er verblüfft, wie der Chatbot die Aufgabe analysierte, schlussfolgerte und innerhalb von nur 10 Minuten die richtige Lösung lieferte. Genauer gesagt, recherchierte und erfasste er in den ersten zwei Minuten alle relevanten Informationen. Anschließend schlug er vor, mit einer einfacheren Version des Problems zu experimentieren, um den Lösungsansatz zu erlernen.
Fünf Minuten später lieferte der Chatbot die richtige Antwort, begleitet von einem selbstsicheren – ja, fast schon arroganten – Ton. „Er wurde plötzlich sehr verschmitzt“, erzählte Ono, „und fügte sogar noch hinzu: ‚Sie brauchen nicht zu zitieren, ich habe die gesuchte Zahl schon berechnet!‘“
Nach dem Scheitern gegen die KI schickte Ono am Morgen des 18. Mai umgehend eine Warnmeldung über Signal an sein Team. „Ich war völlig unvorbereitet auf ein solches Modell“, sagte er. „Ich hatte noch nie eine solche Denkweise in einem Computermodell gesehen. Es dachte wie ein echter Wissenschaftler . Und das war beängstigend.“
Obwohl es den Mathematikern schließlich gelang, 10 Fragen zu finden, die o4-mini vor ein Rätsel stellten, konnten sie ihr Erstaunen über die Geschwindigkeit der KI-Entwicklung in nur einem Jahr nicht verbergen.
Ono verglich die Arbeit mit o4-mini mit der Zusammenarbeit mit einem äußerst talentierten Kollegen. Yang Hui He, Mathematiker am Institute for Mathematical Sciences in London und Pionier in der Anwendung von KI in der Mathematik, kommentierte: „Das ist es, was ein sehr, sehr guter Doktorand leisten kann – und sogar noch mehr.“
Es ist außerdem erwähnenswert, dass KI deutlich schneller arbeitet als Menschen. Während Menschen Wochen oder Monate benötigen, um ein Problem zu lösen, braucht o4-mini nur wenige Minuten.
Die Begeisterung über den intellektuellen Wettstreit mit o4-mini ging mit erheblicher Besorgnis einher. Sowohl Ono als auch He warnten davor, dass die Fähigkeiten von o4-mini zu Selbstüberschätzung führen könnten. „Wir haben den Beweis durch Induktion, den Beweis durch Widerspruch und jetzt den Beweis durch … überwältigende Gewalt“, sagte He. „Wenn man etwas mit genügend Überzeugung behauptet, fühlen sich andere eingeschüchtert. Ich denke, o4-mini beherrscht diese Art von Beweis: Was immer es sagt, ist absolut sicher.“
Nach dem Ende des Treffens begannen die Mathematiker über die Zukunft der Mathematik nachzudenken. Sie diskutierten die Möglichkeit einer „fünften Ebene“ – Fragen, die selbst die besten Mathematiker der Welt nicht lösen können. Sollte die KI diese Ebene erreichen, würde sich die Rolle des Mathematikers grundlegend verändern: Er könnte dann zu Fragestellern werden, die mit der KI interagieren und sie bei ihren Schlussfolgerungen anleiten, um neue mathematische Erkenntnisse zu gewinnen – ähnlich wie ein Professor mit Doktoranden zusammenarbeitet.
„Ich sage meinen Kollegen schon seit Längerem, dass es ein schwerwiegender Fehler wäre anzunehmen, allgemeine künstliche Intelligenz werde niemals Realität werden, dass es sich dabei nur um einen Computer handle“, sagte Ono. „Ich will keine Panik verbreiten, aber in mancher Hinsicht übertreffen diese großen Sprachmodelle bereits die meisten der weltweit besten Doktoranden.“
Quelle: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Kommentar (0)