В середине мая, в один из выходных дней, состоялась закрытая встреча математиков. Тридцать ведущих математиков мира тайно отправились в Беркли, штат Калифорния, США, чтобы принять участие в состязании с чат-ботом, способным «рассуждать». Перед этим чат-ботом стояла задача решить задачи, разработанные самими математиками, чтобы проверить его способности к решению проблем.
После двух дней непрерывного засыпания их вопросами профессорского уровня математики с изумлением обнаружили, что этот чат-бот способен решать одни из самых сложных задач в истории.
«Я слышал, как коллеги прямо заявляли, что эта масштабная языковая модель приближается к уровню математического гения», — сказал Кен Оно, профессор Университета Вирджинии, председатель и судья конференции, в интервью Scientific American.
Упомянутый выше чат-бот основан на o4-mini , большой языковой модели (LLM), разработанной для сложных логических рассуждений. Этот продукт OpenAI обучен выполнять сложные этапы рассуждений. Аналогичная модель от Google, Gemini 2.5 Flash, также обладает схожими возможностями.
Как и предыдущие модели ChatGPT LLM, o4-mini учится предсказывать следующее слово в текстовой строке. Однако разница заключается в том, что o4-mini — это более легкая и гибкая версия, обученная на больших массивах данных и тщательно настроенная человеком, что позволяет ей решать математические задачи, недоступные предыдущим моделям.
Чтобы проверить и оценить возможности o4-mini, OpenAI поручила Epoch AI — некоммерческой организации, специализирующейся на тестировании моделей LLM, — создать 300 ранее не публиковавшихся математических задач. Хотя традиционные модели LLM могут решать множество сложных задач, при решении совершенно новых задач большинство из них дали менее 2% правильных ответов. Это демонстрирует отсутствие у них истинной способности к рассуждению.
В рамках своего последнего проекта по оценке эффективности Epoch AI привлекла к работе молодого доктора математических наук Эллиота Глейзера в качестве руководителя. Новый проект, получивший название FrontierMath , будет запущен в сентябре 2024 года.
В рамках проекта были собраны новые задачи четырех уровней сложности, от задач для студентов бакалавриата и магистратуры до задач углубленного исследования. В апреле 2025 года Глейзер обнаружил, что o4-mini может решить около 20% задач. Поэтому он немедленно перевел его на 4-й уровень, потребовав от него решения задач, с которыми с трудом справились бы даже высококвалифицированные математики.
Участники должны были подписать соглашение о конфиденциальности, разрешающее общение только через зашифрованное приложение Signal, поскольку использование электронной почты могло быть просканировано, а ее содержимое «изучено» LLM, что могло бы привести к фальсификации данных оценки.
За каждую задачу, которую o4-mini не сможет решить, автор задачи получит приз в размере 7500 долларов.
Первоначальная рабочая группа медленно, но верно формулировала вопросы. Однако Глейзер решил ускорить процесс, организовав двухдневную очную встречу 17-18 мая. В ней приняли участие тридцать математиков, разделённых на группы по шесть человек, которые соревновались друг с другом — не в решении задач, а в разработке задач, которые ИИ не мог бы решить.
Вечером 17 мая Кен Оно начал испытывать разочарование от чат-бота, который демонстрировал уровень математических способностей, намного превосходящий ожидания, что затрудняло команде его «поимку». «Я придумал проблему, которую эксперты отрасли признали бы открытой проблемой в теории чисел — проблемой, подходящей для докторской диссертации», — вспоминал он.
В результате, когда он обратился к o4-mini, он был поражен тем, как чат-бот проанализировал ситуацию, рассуждал и предложил правильное решение всего за 10 минут. В частности, за первые две минуты он изучил и усвоил весь необходимый материал. Затем он предложил поэкспериментировать с более простой версией задачи, чтобы освоить подход.
Пять минут спустя чат-бот выдал правильный ответ, сопроводив его уверенным — даже несколько высокомерным — тоном. «Он начал вести себя хитро, — вспоминает Оно, — и даже добавил: „Не нужно цитировать, я уже вычислил загадочное число!“»
Потерпев неудачу в борьбе с ИИ, утром 18 мая Оно немедленно отправил команде тревожное сообщение через Signal. «Я был совершенно не готов к работе с подобной моделью, — сказал он. — Я никогда не видел такого рода рассуждений в компьютерной модели. Она мыслила так, как мыслит настоящий ученый . И это было ужасно».
Хотя математикам в итоге удалось найти 10 вопросов, которые поставили o4-mini в тупик, они не смогли скрыть своего изумления по поводу скорости развития ИИ всего за один год.
Оно сравнил опыт работы с o4-mini с сотрудничеством с чрезвычайно талантливым коллегой. Ян Хуэй Хэ, математик из Института математических наук в Лондоне и пионер в применении ИИ к математике, прокомментировал: «Это то, на что способен очень, очень хороший аспирант — и даже больше».
Стоит отметить, что ИИ работает гораздо быстрее, чем люди. В то время как людям требуются недели или месяцы для решения задачи, o4-mini справляется с ней всего за несколько минут.
Ажиотаж вокруг интеллектуального противостояния с o4-mini сопровождался значительной обеспокоенностью. И Оно, и Хэ предупреждали, что возможности o4-mini могут привести к чрезмерной самоуверенности. «У нас есть доказательство индукцией, доказательство от противного, а теперь и доказательство… подавляющей силой», — сказал Хэ. «Если вы что-то утверждаете с достаточной уверенностью, другие почувствуют себя запуганными. Я думаю, что o4-mini освоил этот тип доказательства: все, что он говорит, очень достоверно».
По завершении встречи математики начали размышлять о будущем математики. Они обсудили возможность существования «пятого уровня» — вопросов, которые не под силу решить даже лучшим математикам мира. Если ИИ достигнет этого уровня, роль математика кардинально изменится: он может стать тем, кто задаёт вопросы, взаимодействуя с ИИ и направляя его рассуждения в поиске новых математических истин — подобно тому, как профессор работает с аспирантами.
«Я уже давно говорю своим коллегам, что было бы серьезной ошибкой предполагать, что общий искусственный интеллект никогда не появится, что это всего лишь компьютер», — сказал Оно. «Я не хочу паниковать, но в некоторых отношениях эти большие языковые модели уже начали превосходить большинство лучших аспирантов мира».
Источник: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Комментарий (0)