В выходные в середине мая состоялась секретная встреча математиков мира. Тридцать ведущих математиков мира тайно отправились в Беркли, Калифорния, чтобы сразиться с чат-ботом с возможностями «рассуждения». Чат-боту было поручено решать задачи, написанные самими математиками, чтобы проверить его способности решать задачи.
После двух дней непрерывного забрасывания вопросами профессорского уровня математики с удивлением осознали, что этот чат-бот может решить некоторые из самых сложных задач, когда-либо решенных в истории.
«Я видел, как коллеги прямо говорили, что эта большая языковая модель приближается к уровню математического гения», — рассказал журналу Scientific American Кен Оно, профессор Университета Вирджинии, председатель и судья встречи.
Чат-бот, который привлек наше внимание, работает на o4-mini , большой языковой модели (LLM), разработанной для сложных рассуждений. Это продукт OpenAI, который был обучен выполнять сложные шаги рассуждения. Эквивалентная модель от Google, Gemini 2.5 Flash, имеет схожие возможности.
Как и предыдущие модели ChatGPT LLM, o4-mini учится предсказывать следующее слово в текстовой строке. Однако в отличие от предыдущих моделей LLM, o4-mini — это более легкая и гибкая версия, обученная на глубоких данных и тщательно настроенная людьми, что позволяет ей углубляться в математические проблемы, которые предыдущие модели не могли решить.
Чтобы протестировать и оценить возможности o4-mini, OpenAI попросила Epoch AI, некоммерческую организацию, специализирующуюся на тестировании моделей LLM, создать 300 ранее не опубликованных математических вопросов. В то время как традиционные LLM могут решать множество сложных задач, когда им бросают вызов с совершенно новыми вопросами, большинство из них дали менее 2% правильных ответов. Это показывает, что они на самом деле не способны рассуждать.
В своем новом оценочном проекте Epoch AI наняла молодого математика доктора Эллиота Глейзера в качестве своего лидера. Новый проект под названием FrontierMath будет запущен в сентябре 2024 года.
Проект собирает новые вопросы на четырех уровнях сложности: от уровня бакалавриата до уровня магистратуры и продвинутых исследований. В апреле 2025 года Глейзер обнаружил, что o4-mini может решать около 20% задач. Поэтому он переместил его на уровень 4 — попросив его решать задачи, с которыми даже продвинутые математики столкнулись бы с трудностями.
Участников заставили подписать соглашение о конфиденциальности, и они могли общаться только через зашифрованное приложение Signal, поскольку использование электронной почты могло позволить LLM сканировать и «нюхать» контент, тем самым фальсифицируя данные оценки.
Каждая задача, которую o4-mini не сможет решить, принесет ее создателю приз в размере 7500 долларов США.
Первоначальная команда медленно, но верно продвигалась в поиске вопросов. Но Глейзер решил ускорить темп, проведя личную встречу 17–18 мая. 30 участвующих математиков были разделены на команды по шесть человек, соревнуясь друг с другом — не в решении задач, а в придумывании задач, которые ИИ не мог решить.
К вечеру 17 мая Кен Оно начал разочаровываться в чат-боте, который демонстрировал свои математические способности, далеко превосходящие ожидания, что затрудняло для команды его «поимку». «Я придумал задачу, которую эксперты в этой области признали бы открытой задачей в теории чисел — задачей, которая подошла бы для докторской степени», — сказал он.
В результате, когда он спросил o4-mini, он был ошеломлен, увидев, как чат-бот проанализировал, рассуждал и предложил правильное решение всего за 10 минут. В частности, за первые две минуты он узнал и усвоил все соответствующие документы. Затем он предложил попробовать более простую версию проблемы, чтобы узнать, как к ней подойти.
Пять минут спустя чат-бот выдал правильный ответ уверенным — даже высокомерным — тоном. «Он начал нахально себя вести, — сказал Оно, — и добавил: «Не нужно кавычек, потому что я разгадал загадочное число!»
Побежденный ИИ, Оно немедленно отправил сигнал бедствия команде через Signal ранним утром 18 мая. «Я был совершенно не готов иметь дело с такой моделью», — сказал он. «Я никогда не видел такого рода рассуждений в компьютерной модели. Это было похоже на мышление настоящего ученого . И это было страшно».
Хотя математикам наконец удалось найти 10 вопросов, которые o4-mini «не мог решить», они все равно не смогли скрыть своего шока от скорости развития ИИ всего за один год.
Оно сравнивает опыт работы с o4-mini с сотрудничеством с очень талантливым коллегой. А Ян Хуэй Хэ, математик из Лондонского института математических наук и пионер в применении ИИ к математике, говорит: «Это то, что может сделать очень, очень талантливый аспирант — и даже больше».
И следует отметить, что ИИ делает это гораздо быстрее людей. В то время как людям требуются недели или месяцы, чтобы решить эту задачу, o4-mini требуется всего несколько минут.
Ажиотаж вокруг o4-mini не лишен опасений. И Оно, и Хе предупреждают, что мощь o4-mini может сделать людей излишне самоуверенными. «У нас есть доказательство индукцией, доказательство от противного, а теперь и доказательство... подавляющим», — говорит Хе. «Если вы говорите что-то с достаточной уверенностью, люди будут напуганы. Я думаю, что o4-mini освоил этот вид доказательства: он говорит все с большой уверенностью».
В конце встречи математики начали думать о будущем математики. Они обсудили возможность «пятого уровня» вопросов — вопросов, которые не могут решить даже лучшие математики мира. Если ИИ достигнет этого порога, роль математиков кардинально изменится: возможно, они станут теми, кто будет задавать вопросы, взаимодействовать с ИИ и направлять его рассуждения для открытия новых математических истин — подобно тому, как профессор работает с аспирантом.
«Я уже давно говорю своим коллегам, что было бы огромной ошибкой думать, что общий искусственный интеллект никогда не появится, что это просто компьютер», — сказал Оно. «Я не хочу паниковать, но в некоторых отношениях эти большие языковые модели уже начинают превосходить большинство лучших докторантов мира».
Источник: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Комментарий (0)