Un fin de semana de mediados de mayo, se celebró una reunión a puerta cerrada de matemáticos. Treinta de los matemáticos más destacados del mundo viajaron en secreto a Berkeley, California, EE. UU., para participar en una confrontación con un chatbot capaz de "razonar". Este chatbot debía resolver problemas ideados por los propios matemáticos para poner a prueba su capacidad de resolución.
Después de dos días consecutivos de bombardearlos con preguntas de nivel profesor, los matemáticos se sorprendieron al descubrir que este chatbot podía resolver algunos de los problemas más difíciles jamás resueltos en la historia.
"He visto a colegas decir abiertamente que este modelo de lenguaje a gran escala se acerca al nivel de genialidad matemática", dijo a Scientific American Ken Ono, profesor de la Universidad de Virginia y presidente y juez de la reunión.
El chatbot mencionado anteriormente se basa en o4-mini , un modelo de lenguaje extenso (LLM) diseñado para razonamiento complejo. Este producto de OpenAI está entrenado para realizar pasos de razonamiento sofisticados. Un modelo similar de Google, llamado Gemini 2.5 Flash, también posee capacidades similares.
Al igual que los LLM de ChatGPT anteriores, o4-mini aprende a predecir la siguiente palabra en una cadena de texto. Sin embargo, la diferencia radica en que o4-mini es una versión más ligera y flexible, entrenada con datos profundos y con un ajuste preciso por parte de personas, lo que le permite profundizar en problemas matemáticos que los modelos anteriores no podían abordar.
Para evaluar las capacidades de o4-mini, OpenAI encargó a Epoch AI, una organización sin fines de lucro especializada en la prueba de modelos LLM, la creación de 300 preguntas matemáticas inéditas. Si bien los LLM tradicionales pueden resolver muchos problemas complejos, al ser desafiados con preguntas completamente nuevas, la mayoría solo resolvió menos del 2% correctamente. Esto demuestra su falta de verdadera capacidad de razonamiento.
En su último proyecto de evaluación, Epoch AI ha reclutado al joven doctor en matemáticas Elliot Glazer como líder. El nuevo proyecto, llamado FrontierMath , se lanzará en septiembre de 2024.
El proyecto recopiló nuevas preguntas en cuatro niveles de dificultad, desde pregrado y posgrado hasta investigación exhaustiva. En abril de 2025, Glazer descubrió que o4-mini podía resolver aproximadamente el 20 % de los problemas. Por lo tanto, lo trasladó inmediatamente al nivel 4, exigiéndole resolver problemas con los que incluso matemáticos muy avanzados tendrían dificultades.
Los participantes debían firmar un acuerdo de confidencialidad y comunicarse únicamente a través de la aplicación encriptada Signal, ya que el uso del correo electrónico podría ser escaneado y su contenido "aprendido" por el LLM, falsificando así los datos de la evaluación.
Por cada problema que o4-mini no pueda resolver, el que lo resuelva recibirá un premio de $7,500.
El grupo de trabajo inicial fue lento pero constante a la hora de formular preguntas. Sin embargo, Glazer decidió acelerar el proceso organizando una reunión presencial de dos días, los días 17 y 18 de mayo. Asistieron treinta matemáticos, divididos en grupos de seis, compitiendo entre sí, no para resolver problemas, sino para idear problemas que la IA no pudiera resolver.
Para la tarde del 17 de mayo, Ken Ono empezó a sentirse frustrado con el chatbot, que demostraba un nivel de habilidad matemática muy superior a las expectativas, lo que dificultaba al equipo atraparlo. "Se me ocurrió un problema que los expertos de la industria reconocerían como un problema abierto en teoría de números, un problema adecuado para un doctorado", relató.
Como resultado, cuando le preguntó a o4-mini, se sorprendió al ver que el chatbot analizaba, razonaba y proporcionaba la solución correcta en tan solo 10 minutos. En concreto, en los dos primeros minutos, investigó y analizó todo el material relevante. Después, sugirió experimentar con una versión más sencilla del problema para aprender el enfoque.
Cinco minutos después, el chatbot dio la respuesta correcta, acompañada de un tono seguro, incluso algo arrogante. "Empezó a actuar con picardía", relató Ono, "e incluso añadió: '¡No hace falta citar, ya he calculado el número misterioso!'".
Tras fallar contra la IA, la mañana del 18 de mayo, Ono envió inmediatamente un mensaje de alerta al equipo a través de Signal. «No estaba en absoluto preparado para lidiar con un modelo como este», dijo. «Nunca había visto este tipo de razonamiento en un modelo informático. Pensaba como un científico de verdad. Y eso fue aterrador».
Aunque los matemáticos finalmente lograron encontrar 10 preguntas que desconcertaban a o4-mini, no pudieron ocultar su asombro por la velocidad del desarrollo de la IA en solo un año.
Ono comparó la experiencia de trabajar con o4-mini con la de colaborar con un colega de gran talento. Yang Hui He, matemático del Instituto de Ciencias Matemáticas de Londres y pionero en la aplicación de la IA a las matemáticas, comentó: «Esto es lo que un estudiante de posgrado excepcional puede hacer, incluso más».
Cabe destacar que la IA trabaja mucho más rápido que los humanos. Mientras que a los humanos les toma semanas o meses resolverlo, o4-mini solo tarda unos minutos.
La emoción que rodeó la batalla de ingenio con o4-mini estuvo acompañada de considerable preocupación. Tanto Ono como He advirtieron que las capacidades de o4-mini podrían inducir a un exceso de confianza. «Tenemos prueba por inducción, prueba por contradicción y ahora prueba por… fuerza abrumadora», dijo He. «Si afirmas algo con suficiente seguridad, los demás se sentirán intimidados. Creo que o4-mini domina este tipo de prueba: todo lo que dice es muy cierto».
Al concluir la reunión, los matemáticos comenzaron a reflexionar sobre el futuro de las matemáticas. Debatieron la posibilidad de un "quinto nivel": preguntas que ni siquiera los mejores matemáticos del mundo pueden resolver. Si la IA alcanza ese nivel, el rol del matemático cambiará drásticamente: podría convertirse en cuestionador, interactuando con la IA y guiándola en su razonamiento para descubrir nuevas verdades matemáticas, de forma similar a como un profesor trabaja con estudiantes de posgrado.
“Llevo un tiempo diciéndoles a mis colegas que sería un grave error asumir que la inteligencia artificial general nunca aparecerá, que es solo una computadora”, dijo Ono. “No quiero entrar en pánico, pero en algunos aspectos, estos grandes modelos de lenguaje ya han empezado a superar a la mayoría de los mejores estudiantes de posgrado del mundo”.
Fuente: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Kommentar (0)