В один из выходных в середине мая состоялась секретная встреча математического сообщества. 30 ведущих математиков мира тайно отправились в Беркли, штат Калифорния, США, чтобы встретиться с чат-ботом, способным «рассуждать». Чат-боту было поручено решать задачи, написанные самими математиками, чтобы проверить его навыки решения задач.
После двух дней непрерывного засыпания вопросами профессорского уровня математики с удивлением осознали, что этот чат-бот может решить некоторые из самых сложных задач, когда-либо решенных в истории.
«Я видел, как коллеги открыто говорили, что эта большая языковая модель приближается к уровню математического гения», — рассказал журналу Scientific American Кен Оно, профессор Университета Вирджинии, председатель и судья встречи.
Чат-бот, привлекший наше внимание, работает на базе o4-mini — большой языковой модели (LLM), разработанной для сложных рассуждений. Это продукт OpenAI, обученный выполнять сложные рассуждения. Аналогичная модель от Google, Gemini 2.5 Flash, обладает схожими возможностями.
Как и предыдущие модели ChatGPT LLM, o4-mini обучается предсказывать следующее слово в текстовой строке. Однако o4-mini — это более лёгкая и гибкая версия, обученная на обширных данных и тщательно настроенная людьми, что позволяет ей решать математические задачи, недоступные предыдущим моделям.
Чтобы проверить возможности o4-mini, OpenAI попросила Epoch AI, некоммерческую организацию, специализирующуюся на тестировании моделей LLM, создать 300 ранее не публиковавшихся математических вопросов. Хотя традиционные LLM могут решать множество сложных задач, при столкновении с совершенно новыми вопросами большинство из них давали менее 2% правильных ответов, что говорит об их неспособности к истинному рассуждению.
Для нового оценочного проекта Epoch AI привлекла молодого математика доктора Эллиота Глейзера в качестве руководителя. Новый проект, получивший название FrontierMath , будет запущен в сентябре 2024 года.
Проект собирает новые вопросы на четырёх уровнях сложности: от уровня бакалавриата, магистратуры до продвинутого исследования. К апрелю 2025 года Глейзер обнаружил, что o4-mini может решить около 20% задач. Поэтому он перешёл к четвёртому уровню, поручив ему решать задачи, с которыми столкнулись бы даже продвинутые математики.
Участников заставили подписать соглашение о конфиденциальности и могли общаться только через зашифрованное приложение Signal, поскольку использование электронной почты могло позволить LLM сканировать и «прослушивать» контент, тем самым фальсифицируя данные оценки.
Каждая задача, которую o4-mini не сможет решить, принесет спрашивающему приз в размере 7500 долларов США.
Первоначальная команда медленно, но верно продвигалась в формулировании вопросов. Но Глейзер решил ускорить процесс, проведя очную встречу 17–18 мая. 30 участвующих математиков были разделены на группы по шесть человек, которые соревновались друг с другом — не в решении задач, а в придумывании задач, которые ИИ не мог решить.
К вечеру 17 мая Кен Оно начал раздражаться из-за чат-бота, который демонстрировал уровень математических знаний, значительно превышающий ожидаемый, что затрудняло его «поимку» командой. «Я придумал задачу, которую эксперты в этой области сочли бы открытой проблемой теории чисел — задачей, достойной докторской диссертации», — сказал он.
В результате, когда он обратился к o4-mini, он был ошеломлён, увидев, как чат-бот проанализировал, рассуждал и предложил правильное решение всего за 10 минут. В частности, за первые две минуты он изучил и усвоил все необходимые документы. Затем он предложил попробовать более простую версию задачи, чтобы понять, как к ней подойти.
Через пять минут чат-бот дал правильный ответ, заговорив уверенным, даже высокомерным тоном. «Он начал вести себя нагло, — говорит Оно, — и добавил: „Не нужно цитаты, потому что я узнал секретный номер!“»
Потерпев поражение от ИИ, ранним утром 18 мая Оно немедленно отправил команде предупреждение через Signal. «Я был совершенно не готов иметь дело с такой моделью, — сказал он. — Я никогда не видел подобного рода рассуждений в компьютерной модели. Это было похоже на мышление настоящего учёного . И это было страшно».
Хотя математикам в конце концов удалось найти 10 вопросов, которые поставили o4-mini в тупик, они все равно не смогли скрыть своего потрясения от скорости развития ИИ всего за один год.
Оно сравнивает работу с o4-mini с сотрудничеством с очень талантливым коллегой. А Ян Хуэй Хэ, математик из Лондонского института математических наук и пионер в применении ИИ к математике, отмечает: «Вот на что способен очень, очень талантливый аспирант — и даже больше».
Стоит отметить, что ИИ справляется с этой задачей гораздо быстрее человека. В то время как людям на её решение требуются недели или месяцы, o4-mini справляется всего за несколько минут.
Ажиотаж вокруг o4-mini не лишен опасений. И Оно, и Хэ предупреждают, что возможности o4-mini могут вызывать у людей излишнюю самоуверенность. «У нас есть доказательство индукцией, доказательство от противного, а теперь и доказательство… ошеломляющим», — говорит Хэ. «Если вы говорите что-то с достаточной уверенностью, люди будут напуганы. Я думаю, o4-mini мастерски справляется с такими доказательствами: он говорит всё с большой уверенностью».
По завершении встречи математики задумались о будущем математики. Они обсудили возможность «пятого уровня» — вопросов, которые не могут решить даже лучшие математики мира. Если ИИ достигнет этого порога, роль математиков кардинально изменится: возможно, они станут исследователями, взаимодействуя с ИИ и направляя его рассуждения для открытия новых математических истин — подобно тому, как профессор работает с аспирантом.
«Я давно говорю коллегам, что было бы огромной ошибкой думать, что универсальный ИИ никогда не появится, что это всего лишь компьютер», — сказал Оно. «Я не хочу паниковать, но в некоторых отношениях эти большие языковые модели уже начинают превосходить большинство лучших аспирантов мира».
Источник: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Комментарий (0)