Em um fim de semana em meados de maio, ocorreu uma reunião secreta do mundo da matemática. 30 dos principais matemáticos do mundo viajaram secretamente para Berkeley, Califórnia, EUA, para participar de um confronto com um chatbot capaz de "raciocinar". O chatbot foi encarregado de resolver problemas escritos pelos próprios matemáticos, para testar suas habilidades de resolução de problemas.
Depois de dois dias disparando continuamente perguntas de nível de professor, os matemáticos ficaram surpresos ao perceber que esse chatbot poderia resolver alguns dos problemas mais difíceis já resolvidos na história.
“Vi colegas dizerem abertamente que esse grande modelo de linguagem está se aproximando do nível de genialidade matemática”, disse Ken Ono, professor da Universidade da Virgínia e presidente e jurado da reunião, à Scientific American.
O chatbot que nos chamou a atenção é alimentado pelo o4-mini , um modelo de linguagem de grande porte (LLM) projetado para raciocínio complexo. É um produto da OpenAI e é treinado para executar raciocínios sofisticados. O modelo equivalente do Google, o Gemini 2.5 Flash, possui recursos semelhantes.
Assim como os LLMs anteriores do ChatGPT, o o4-mini aprende a prever a próxima palavra em uma sequência de texto. No entanto, o o4-mini é uma versão mais leve e flexível, treinada em dados profundos e ajustada por humanos — permitindo que se aprofunde em problemas matemáticos que os modelos anteriores não conseguiam alcançar.
Para testar as capacidades do o4-mini, a OpenAI pediu à Epoch AI, uma organização sem fins lucrativos especializada em testar modelos de LLM, que criasse 300 questões matemáticas inéditas. Embora os LLMs tradicionais consigam resolver muitos problemas complexos, quando desafiados com questões completamente novas, a maioria deles acertou menos de 2%, sugerindo que não eram realmente capazes de raciocinar.
No novo projeto de avaliação, a Epoch AI recrutou o jovem matemático Dr. Elliot Glazer como líder. O novo projeto, chamado FrontierMath , será implementado a partir de setembro de 2024.
O projeto reúne novas questões em quatro níveis de dificuldade, desde graduação, pós-graduação até pesquisa avançada. Em abril de 2025, Glazer descobriu que o o4-mini conseguia resolver cerca de 20% dos problemas. Então, ele avançou para o nível 4, pedindo que ele resolvesse problemas com os quais até mesmo matemáticos avançados teriam dificuldade.
Os participantes foram forçados a assinar um acordo de confidencialidade e só podiam se comunicar por meio do aplicativo criptografado Signal, já que o uso de e-mail poderia permitir que o LLM escaneasse e “farejasse” o conteúdo, falsificando assim os dados de avaliação.
Cada problema que o o4-mini não conseguir resolver renderá ao questionador um prêmio de 7.500 USD.
A equipe inicial progrediu lentamente, mas de forma constante, na formulação de perguntas. Mas Glazer decidiu acelerar o processo realizando uma reunião presencial nos dias 17 e 18 de maio. Os 30 matemáticos participantes foram divididos em grupos de seis, competindo entre si — não para resolver problemas, mas para apresentar problemas que a IA não conseguia resolver.
Na noite de 17 de maio, Ken Ono começou a ficar frustrado com o chatbot, que demonstrava um nível de proficiência matemática muito além do esperado, dificultando a "captura" da equipe. "Eu criei um problema que especialistas na área reconheceriam como um problema em aberto na teoria dos números — um problema adequado para um doutorado", disse ele.
Como resultado, quando perguntou ao o4-mini, ficou surpreso ao ver o chatbot analisar, raciocinar e chegar à solução correta em apenas 10 minutos. Especificamente, nos primeiros dois minutos, ele aprendeu e assimilou todos os documentos relevantes. Em seguida, propôs tentar uma versão mais simples do problema para aprender como abordá-lo.
Cinco minutos depois, o chatbot deu a resposta correta, falando com um tom confiante — até arrogante. "Começou a ficar atrevido", conta Ono, "e acrescentou: 'Não precisa de citação porque descobri o número secreto!'"
Derrotado pela IA, na madrugada de 18 de maio, Ono imediatamente enviou uma mensagem de alerta à equipe via Signal. "Eu estava completamente despreparado para lidar com um modelo como esse", disse ele. "Eu nunca tinha visto esse tipo de raciocínio em um modelo computacional. Era como pensar um cientista de verdade. E isso era assustador."
Embora os matemáticos finalmente tenham conseguido encontrar 10 perguntas que deixaram o o4-mini perplexo, eles ainda não conseguiram esconder seu choque com a velocidade do desenvolvimento da IA em apenas um ano.
Ono compara a experiência de trabalhar com o o4-mini à de colaborar com um colega muito talentoso. E Yang Hui He, matemático do Instituto de Ciências Matemáticas de Londres e pioneiro na aplicação de IA à matemática, comenta: "Isso é o que um aluno de doutorado muito, muito talentoso pode fazer — e até mais."
E vale ressaltar que a IA faz isso muito mais rápido do que os humanos. Enquanto humanos levam semanas ou meses para resolver, o o4-mini leva apenas alguns minutos.
O entusiasmo em torno do o4-mini não é isento de preocupações. Tanto Ono quanto He alertam que as capacidades do o4-mini podem deixar as pessoas excessivamente confiantes. "Temos prova por indução, prova por contradição e agora prova por... esmagadora", diz ele. "Se você disser algo com confiança suficiente, as pessoas ficarão intimidadas. Acho que o o4-mini domina esse tipo de prova: ele diz tudo com grande confiança."
Ao final da reunião, os matemáticos começaram a refletir sobre o futuro da matemática. Discutiram a possibilidade de um "quinto nível" — questões que nem mesmo os melhores matemáticos do mundo conseguem resolver. Se a IA atingir esse limiar, o papel dos matemáticos mudará drasticamente: talvez eles se tornem questionadores, interagindo e orientando o raciocínio da IA para descobrir novas verdades matemáticas — semelhante à maneira como um professor trabalha com um aluno de pós-graduação.
“Há muito tempo venho dizendo aos meus colegas que seria um grande erro pensar que a IA geral nunca existirá, que é apenas um computador”, disse Ono. “Não quero entrar em pânico, mas, de certa forma, esses grandes modelos de linguagem já estão começando a superar a maioria dos melhores alunos de doutorado do mundo.”
Fonte: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Comentário (0)