An einem Wochenende Mitte Mai fand ein geheimes Treffen der Mathematiker statt. 30 der weltweit führenden Mathematiker reisten heimlich nach Berkeley, Kalifornien, USA, um an einer Konfrontation mit einem Chatbot teilzunehmen, der „schlussfolgern“ konnte. Der Chatbot sollte von Mathematikern selbst geschriebene Aufgaben lösen, um seine Problemlösungsfähigkeiten zu testen.
Nachdem die Mathematiker zwei Tage lang ununterbrochen mit Fragen auf Professorenniveau bombardiert worden waren, stellten sie überrascht fest, dass dieser Chatbot einige der schwierigsten Probleme lösen konnte, die jemals gelöst wurden.
„Ich habe Kollegen unverblümt sagen hören, dass dieses große Sprachmodell an die Grenzen mathematischer Genialität stößt“, sagte Ken Ono, Professor an der University of Virginia und Vorsitzender und Juror der Tagung, gegenüber Scientific American.
Der Chatbot, der unsere Aufmerksamkeit erregte, basiert auf o4-mini , einem großen Sprachmodell (LLM), das für komplexes Denken entwickelt wurde. Es ist ein Produkt von OpenAI und wurde für anspruchsvolles Denken trainiert. Das entsprechende Modell von Google, Gemini 2.5 Flash, verfügt über ähnliche Fähigkeiten.
Wie frühere ChatGPT-LLMs lernt o4-mini, das nächste Wort in einer Textzeichenfolge vorherzusagen. o4-mini ist jedoch eine leichtere, flexiblere Version, die mit umfangreichen Daten trainiert und von Menschen genau abgestimmt wurde. Dadurch kann es mathematische Probleme lösen, die für frühere Modelle unerreichbar waren.
Um die Fähigkeiten des o4-mini zu testen, bat OpenAI Epoch AI, eine gemeinnützige Organisation, die sich auf das Testen von LLM-Modellen spezialisiert hat, 300 bisher unveröffentlichte mathematische Fragen zu erstellen. Traditionelle LLMs können zwar viele komplexe Probleme lösen, doch bei völlig neuen Fragen antworteten die meisten weniger als 2 % richtig, was darauf hindeutet, dass sie nicht wirklich zum logischen Denken fähig sind.
Für das neue Evaluierungsprojekt konnte Epoch AI den jungen Mathematiker Dr. Elliot Glazer als Leiter gewinnen. Das neue Projekt mit dem Namen FrontierMath wird ab September 2024 einsatzbereit sein.
Das Projekt sammelt neue Fragen in vier Schwierigkeitsstufen – vom Bachelor- über den Master- bis zum fortgeschrittenen Forschungsniveau. Im April 2025 stellte Glazer fest, dass o4-mini etwa 20 % der Probleme lösen konnte. Also ging er bis zur vierten Stufe über und forderte o4-mini auf, Probleme zu lösen, mit denen selbst fortgeschrittene Mathematiker zu kämpfen hätten.
Die Teilnehmer mussten eine Vertraulichkeitsvereinbarung unterzeichnen und konnten nur über die verschlüsselte App Signal kommunizieren, da die Verwendung von E-Mail es LLM ermöglichen könnte, den Inhalt zu scannen und zu „erschnüffeln“, wodurch die Auswertungsdaten verfälscht würden.
Für jedes Problem, das o4-mini nicht lösen kann, winkt dem Fragesteller ein Preisgeld von 7.500 USD.
Das ursprüngliche Team machte langsame, aber stetige Fortschritte bei der Entwicklung von Fragen. Doch Glazer beschloss, die Dinge zu beschleunigen, indem er am 17. und 18. Mai ein persönliches Treffen abhielt. Die 30 teilnehmenden Mathematiker wurden in Sechsergruppen aufgeteilt und konkurrierten miteinander – nicht um Probleme zu lösen, sondern um Probleme zu entwickeln, die KI nicht lösen konnte.
Am Abend des 17. Mai begann Ken Ono, sich über den Chatbot zu ärgern, der ein weit über die Erwartungen hinausgehendes mathematisches Können zeigte, sodass es für das Team schwierig war, ihn zu „fangen“. „Ich habe mir ein Problem ausgedacht, das Experten auf diesem Gebiet als ungelöstes Problem der Zahlentheorie erkennen würden – ein Problem, das für eine Doktorarbeit geeignet ist“, sagte er.
Als er o4-mini fragte, war er verblüfft, wie der Chatbot in nur 10 Minuten analysierte, argumentierte und die richtige Lösung fand. In den ersten zwei Minuten lernte und verstand er alle relevanten Dokumente. Anschließend schlug er vor, eine einfachere Version des Problems auszuprobieren, um zu lernen, wie man es angeht.
Fünf Minuten später gab der Chatbot die richtige Antwort und sprach dabei mit selbstbewusstem, ja sogar arrogantem Ton. „Er wurde langsam frech“, sagt Ono, „und fügte hinzu: ‚Kein Zitat nötig, ich habe die Geheimnummer herausgefunden!‘“
Nachdem Ono am frühen Morgen des 18. Mai von der KI besiegt worden war, schickte er dem Team umgehend eine Warnmeldung über Signal. „Ich war völlig unvorbereitet auf ein solches Modell“, sagte er. „Ich hatte noch nie eine solche Denkweise in einem Computermodell gesehen. Es war das Denken eines echten Wissenschaftlers . Und das war beängstigend.“
Obwohl es den Mathematikern schließlich gelang, zehn Fragen zu finden, die den o4-mini vor ein Rätsel stellten, konnten sie ihren Schock über die Geschwindigkeit der KI-Entwicklung in nur einem Jahr nicht verbergen.
Ono vergleicht die Erfahrung der Arbeit mit o4-mini mit der Zusammenarbeit mit einem sehr talentierten Kollegen. Und Yang Hui He, Mathematiker am London Institute of Mathematical Sciences und Pionier in der Anwendung von KI in der Mathematik, kommentiert: „Das ist es, was ein sehr, sehr talentierter Doktorand leisten kann – und noch mehr.“
Und es ist zu beachten, dass KI dies viel schneller erledigt als Menschen. Während Menschen Wochen oder Monate brauchen, um es zu lösen, benötigt o4-mini nur wenige Minuten.
Die Begeisterung um den o4-mini ist nicht ohne Bedenken. Sowohl Ono als auch He warnen, dass die Fähigkeiten des o4-mini Menschen übermütig machen könnten. „Wir kennen den Beweis durch Induktion, den Beweis durch Widerspruch und jetzt auch den Beweis durch … Überwältigung“, sagt He. „Wenn man etwas mit genügend Selbstvertrauen sagt, werden die Leute eingeschüchtert. Ich denke, der o4-mini hat diese Art des Beweises gemeistert: Er sagt alles mit großer Zuversicht.“
Zum Abschluss des Treffens begannen die Mathematiker, über die Zukunft der Mathematik nachzudenken. Sie diskutierten die Möglichkeit einer „fünften Ebene“ – Fragen, die selbst die besten Mathematiker der Welt nicht lösen können. Wenn die KI diese Schwelle erreicht, wird sich die Rolle der Mathematiker dramatisch verändern: Vielleicht werden sie zu Fragestellern, die mit der KI interagieren und deren Schlussfolgerungen leiten, um neue mathematische Wahrheiten zu entdecken – ähnlich wie ein Professor mit einem Doktoranden zusammenarbeitet.
„Ich sage meinen Kollegen schon lange, dass es ein großer Fehler wäre zu glauben, dass es keine allgemeine KI geben wird, sondern dass es sich nur um einen Computer handelt“, sagte Ono. „Ich möchte keine Panik auslösen, aber in mancher Hinsicht übertreffen diese großen Sprachmodelle bereits die meisten der weltbesten Doktoranden.“
Quelle: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Kommentar (0)