Em um fim de semana em meados de maio, ocorreu uma reunião fechada de matemáticos. Trinta dos matemáticos mais renomados do mundo viajaram secretamente para Berkeley, na Califórnia, EUA, para participar de um confronto com um chatbot capaz de "raciocinar". Esse chatbot tinha a tarefa de resolver problemas elaborados pelos próprios matemáticos, a fim de testar suas habilidades de resolução de problemas.
Após dois dias consecutivos bombardeando-os com perguntas de nível acadêmico, os matemáticos ficaram surpresos ao descobrir que esse chatbot conseguia resolver alguns dos problemas mais difíceis já solucionados na história.
"Já vi colegas afirmarem categoricamente que este modelo de linguagem em larga escala está se aproximando do nível de genialidade matemática", disse Ken Ono, professor da Universidade da Virgínia, presidente e juiz do encontro, à Scientific American.
O chatbot mencionado é baseado no o4-mini , um modelo de linguagem de grande porte (LLM) projetado para raciocínio complexo. Este produto da OpenAI é treinado para executar etapas de raciocínio sofisticadas. Um modelo similar do Google, chamado Gemini 2.5 Flash, também possui capacidades semelhantes.
Assim como os modelos LLM ChatGPT anteriores, o o4-mini aprende a prever a próxima palavra em uma sequência de texto. No entanto, a diferença reside no fato de o o4-mini ser uma versão mais leve e flexível, treinada com dados profundos e recebendo ajustes humanos minuciosos — o que lhe permite explorar problemas matemáticos que os modelos anteriores não conseguiam resolver.
Para desafiar e avaliar as capacidades do o4-mini, a OpenAI encomendou à Epoch AI — uma organização sem fins lucrativos especializada em testar modelos de aprendizado de máquina — a criação de 300 questões matemáticas inéditas. Embora os modelos de aprendizado de máquina tradicionais consigam resolver muitos problemas complexos, quando desafiados com questões totalmente novas, a maioria deles acertou menos de 2%. Isso demonstra que lhes falta uma verdadeira capacidade de raciocínio.
Em seu mais recente projeto de avaliação, a Epoch AI recrutou o jovem doutor em matemática Elliot Glazer como líder. O novo projeto, chamado FrontierMath , será lançado em setembro de 2024.
O projeto coletou novas questões em quatro níveis de dificuldade, desde graduação e pós-graduação até pesquisa aprofundada. Em abril de 2025, Glazer descobriu que o o4-mini conseguia resolver cerca de 20% dos problemas. Portanto, ele imediatamente o elevou para o nível 4, exigindo que resolvesse problemas que até mesmo matemáticos altamente avançados teriam dificuldade em resolver.
Os participantes foram obrigados a assinar um acordo de confidencialidade, comunicando-se apenas por meio do aplicativo criptografado Signal, pois o uso de e-mail poderia ser analisado e seu conteúdo "aprendido" pelo LLM, falsificando assim os dados de avaliação.
Para cada problema que o4-mini não conseguir resolver, o criador do problema receberá um prêmio de US$ 7.500.
O grupo de trabalho inicial foi lento, mas constante, na elaboração de perguntas. No entanto, Glazer decidiu acelerar o processo organizando uma reunião presencial de dois dias, nos dias 17 e 18 de maio. Trinta matemáticos participaram, divididos em grupos de seis, competindo entre si — não para resolver problemas, mas para conceber problemas que a IA não conseguisse resolver.
Na noite de 17 de maio, Ken Ono começou a se sentir frustrado com o chatbot, que demonstrava um nível de habilidade matemática muito acima das expectativas, dificultando para a equipe "capturá-lo". "Eu criei um problema que especialistas da área reconheceriam como um problema em aberto na teoria dos números – um problema digno de um doutorado", relatou ele.
Como resultado, quando ele perguntou ao o4-mini, ficou impressionado ao ver o chatbot analisar, raciocinar e fornecer a solução correta em apenas 10 minutos. Especificamente, nos primeiros dois minutos, pesquisou e assimilou todo o material relevante. Em seguida, sugeriu experimentar com uma versão mais simples do problema para aprender a abordagem.
Cinco minutos depois, o chatbot forneceu a resposta correta, acompanhada de um tom confiante — até mesmo um tanto arrogante. "Ele começou a agir com malícia", contou Ono, "e até acrescentou: 'Não precisa citar, eu já calculei o número misterioso!'"
Após ter falhado contra a IA, na manhã de 18 de maio, Ono enviou imediatamente uma mensagem de alerta à equipe via Signal. "Eu estava completamente despreparado para lidar com um modelo como esse", disse ele. "Nunca tinha visto esse tipo de raciocínio em um modelo computacional. Ele pensava como um cientista de verdade pensa. E isso foi aterrorizante."
Embora os matemáticos tenham finalmente conseguido encontrar 10 questões que intrigaram o o4-mini, eles não conseguiram esconder seu espanto com a velocidade do desenvolvimento da IA em apenas um ano.
Ono comparou a experiência de trabalhar com o o4-mini à colaboração com um colega extremamente talentoso. Yang Hui He, matemático do Instituto de Ciências Matemáticas de Londres e pioneiro na aplicação de IA à matemática, comentou: "Isto é o que um estudante de pós-graduação muito, muito bom pode fazer — e até mais do que isso."
E vale ressaltar que a IA funciona muito mais rápido que os humanos. Enquanto os humanos levam semanas ou meses para resolver um problema, o o4-mini leva apenas alguns minutos.
A empolgação em torno da batalha de inteligência com o o4-mini era acompanhada por considerável preocupação. Tanto Ono quanto He alertaram que as capacidades do o4-mini poderiam levar ao excesso de confiança. "Temos provas por indução, provas por contradição e agora provas por... força esmagadora", disse He. "Se você afirmar algo com muita confiança, os outros se sentirão intimidados. Acho que o o4-mini dominou esse tipo de prova: tudo o que ele diz é muito certo."
Ao término da reunião, os matemáticos começaram a refletir sobre o futuro da matemática. Discutiram a possibilidade de um “quinto nível” — questões que nem mesmo os melhores matemáticos do mundo conseguem resolver. Se a IA atingir esse nível, o papel do matemático mudará drasticamente: ele poderá se tornar um questionador, interagindo com a IA e guiando seu raciocínio para descobrir novas verdades matemáticas — de forma semelhante à maneira como um professor trabalha com alunos de pós-graduação.
“Já faz um tempo que venho dizendo aos meus colegas que seria um grande erro presumir que a inteligência artificial geral jamais surgirá, que se trata apenas de um computador”, disse Ono. “Não quero causar pânico, mas, em alguns aspectos, esses grandes modelos de linguagem já começaram a superar a maioria dos melhores alunos de pós-graduação do mundo.”
Fonte: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Comentário (0)