Une rencontre remarquable où des mathématiciens cherchent à vaincre l'intelligence artificielle.

Un week-end de mi-mai, une réunion secrète de mathématiciens s'est tenue. Trente des plus grands mathématiciens du monde se sont rendus à Berkeley, en Californie, aux États-Unis, pour participer à une confrontation avec un chatbot capable de « raisonner ». Ce chatbot avait pour mission de résoudre des problèmes conçus par les mathématiciens eux-mêmes, afin de tester ses capacités de résolution de problèmes.

Après deux jours consécutifs à les bombarder de questions de niveau universitaire, les mathématiciens ont été stupéfaits de découvrir que ce chatbot pouvait résoudre certains des problèmes les plus difficiles jamais résolus dans l'histoire.

« J’ai vu des collègues affirmer sans ambages que ce modèle de langage à grande échelle frôle le génie mathématique », a déclaré Ken Ono, professeur à l’Université de Virginie et président et juge de la réunion, à Scientific American.

Le chatbot mentionné ci-dessus est basé sur o4-mini , un modèle de langage étendu (LLM) conçu pour le raisonnement complexe. Ce produit d'OpenAI est entraîné à effectuer des raisonnements sophistiqués. Un modèle similaire de Google, appelé Gemini 2.5 Flash, possède également des capacités comparables.

À l'instar des précédents modèles de langage ChatGPT, o4-mini apprend à prédire le mot suivant dans une chaîne de caractères. Cependant, sa principale différence réside dans sa conception allégée et plus flexible. Entraîné sur un ensemble de données profond et bénéficiant d'un paramétrage humain précis, o4-mini peut ainsi aborder des problèmes mathématiques inaccessibles aux modèles précédents.

Afin de mettre à l'épreuve et d'évaluer les capacités d'o4-mini, OpenAI a mandaté Epoch AI, une organisation à but non lucratif spécialisée dans les tests de modèles LLM, pour créer 300 questions mathématiques inédites. Si les modèles LLM traditionnels peuvent résoudre de nombreux problèmes complexes, confrontés à des questions entièrement nouvelles, la plupart d'entre eux n'ont résolu correctement que moins de 2 % des problèmes. Cela démontre leur incapacité à fournir un véritable raisonnement.

Dans le cadre de son dernier projet d'évaluation, Epoch AI a recruté le jeune docteur en mathématiques Elliot Glazer pour le diriger. Ce nouveau projet, baptisé FrontierMath , sera lancé en septembre 2024.

Le projet a permis de recueillir de nouvelles questions réparties en quatre niveaux de difficulté, allant du niveau licence et master à la recherche approfondie. En avril 2025, Glazer a constaté que o4-mini pouvait résoudre environ 20 % des problèmes. Il l'a donc immédiatement fait passer au niveau 4, exigeant de lui la résolution de problèmes qui poseraient des difficultés même aux mathématiciens les plus brillants.

Les participants devaient signer un accord de confidentialité et ne pouvaient communiquer que par l'intermédiaire de l'application cryptée Signal, car l'utilisation du courrier électronique pouvait être scannée et son contenu « appris » par le LLM, falsifiant ainsi les données d'évaluation.

Pour chaque problème que o4-mini ne parvient pas à résoudre, le créateur du problème recevra un prix de 7 500 $.

Le groupe de travail initial a progressé lentement mais sûrement dans la formulation des questions. Cependant, Glazer a décidé d'accélérer le processus en organisant une réunion en présentiel de deux jours, les 17 et 18 mai. Trente mathématiciens y ont participé, répartis en groupes de six, et se sont affrontés non pas pour résoudre des problèmes, mais pour concevoir des problèmes que l'IA ne pourrait pas résoudre.

Le soir du 17 mai, Ken Ono commença à s'agacer du chatbot, dont les capacités mathématiques dépassaient largement les attentes, rendant sa capture difficile pour l'équipe. « J'ai trouvé un problème que les experts du secteur reconnaîtraient comme un problème ouvert en théorie des nombres – un problème digne d'une thèse de doctorat », a-t-il raconté.

En conséquence, lorsqu'il a interrogé o4-mini, il a été stupéfait de voir le chatbot analyser, raisonner et fournir la solution adéquate en seulement 10 minutes. Plus précisément, en deux minutes, le chatbot a effectué des recherches et assimilé toute la documentation pertinente. Il lui a ensuite suggéré de s'exercer sur une version simplifiée du problème afin d'en comprendre la démarche.

Cinq minutes plus tard, le chatbot a donné la bonne réponse, sur un ton assuré, voire un peu arrogant. « Il a commencé à se comporter de façon sournoise », raconte Ono, « et il a même ajouté : “Pas besoin de citer, j’ai déjà calculé le nombre mystère !” »

Après son échec face à l'IA, le matin du 18 mai, Ono a immédiatement envoyé un message d'alerte à son équipe via Signal. « J'étais totalement démuni face à un modèle de ce genre », a-t-il déclaré. « Je n'avais jamais vu un tel raisonnement chez un ordinateur. Il pensait comme un vrai scientifique . Et c'était terrifiant. »

Bien que les mathématiciens aient finalement réussi à trouver 10 questions qui ont déconcerté o4-mini, ils n'ont pas pu cacher leur étonnement face à la vitesse de développement de l'IA en seulement un an.

Ono a comparé son expérience avec o4-mini à une collaboration avec un collègue extrêmement talentueux. Yang Hui He, mathématicien à l'Institut des sciences mathématiques de Londres et pionnier de l'application de l'IA aux mathématiques, a commenté : « Voilà ce qu'un étudiant de troisième cycle très, très doué peut accomplir – et même plus. »

Il est important de noter que l'IA travaille beaucoup plus vite que les humains. Alors qu'il faut des semaines, voire des mois, à un humain pour résoudre un problème, o4-mini n'y consacre que quelques minutes.

L'enthousiasme suscité par le duel d'intelligence avec o4-mini s'accompagnait d'une inquiétude considérable. Ono et He ont tous deux mis en garde contre le risque de surconfiance lié aux capacités d'o4-mini. « Nous avons la preuve par induction, la preuve par l'absurde, et maintenant la preuve par… force irréfutable », a déclaré He. « Si vous affirmez quelque chose avec une assurance excessive, les autres se sentiront intimidés. Je pense qu'o4-mini maîtrise parfaitement ce type de preuve : tout ce qu'il affirme est absolument certain. »

À la fin de la réunion, les mathématiciens se sont penchés sur l'avenir des mathématiques. Ils ont évoqué la possibilité d'un « cinquième niveau » : des questions que même les plus grands mathématiciens du monde ne peuvent résoudre. Si l'IA atteint ce niveau, le rôle du mathématicien se transformera radicalement : il pourrait alors devenir un questionneur, interagissant avec l'IA et la guidant dans son raisonnement pour découvrir de nouvelles vérités mathématiques, à l'instar d'un professeur avec ses doctorants.

« Je dis à mes collègues depuis un certain temps déjà que ce serait une grave erreur de croire que l’intelligence artificielle générale n’apparaîtra jamais, qu’elle se résume à un simple ordinateur », a déclaré Ono. « Je ne veux pas semer la panique, mais à certains égards, ces grands modèles de langage ont déjà commencé à surpasser la plupart des meilleurs doctorants du monde. »

(Vietnam+)

Source : https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp