Чудова зустріч, де математики прагнуть перемогти штучний інтелект.

Одного вихідного в середині травня відбулася закрита зустріч математиків. Тридцять провідних математиків світу таємно вирушили до Берклі, Каліфорнія, США, щоб взяти участь у конфронтації з чат-ботом, здатним «міркувати». Цьому чат-боту було доручено розв'язувати задачі, розроблені самими математиками, щоб перевірити його здібності до розв'язання задач.

Після двох днів поспіль бомбардування їх питаннями рівня професора, математики були вражені, виявивши, що цей чат-бот може вирішувати деякі з найскладніших задач, коли-небудь вирішених в історії.

«Я бачив, як колеги прямо говорили, що ця масштабна мовна модель наближається до рівня математичного генія», – сказав Кен Оно, професор Університету Вірджинії, голова та член суду зустрічі, в інтерв’ю журналу Scientific American.

Згаданий чат-бот базується на o4-mini , великій мовній моделі (LLM), розробленій для складних міркувань. Цей продукт OpenAI навчений виконувати складні кроки міркування. Аналогічна модель від Google під назвою Gemini 2.5 Flash також має аналогічні можливості.

Як і попередні LLM ChatGPT, o4-mini навчається передбачати наступне слово в текстовому рядку. Однак різниця полягає в тому, що o4-mini — це легша, гнучкіша версія, навчена на глибоких даних та ретельно налаштована людиною, що дозволяє їй заглиблюватися в математичні проблеми, до яких попередні моделі не могли дійти.

Щоб перевірити та оцінити можливості o4-mini, OpenAI доручила Epoch AI — некомерційній організації, що спеціалізується на тестуванні моделей LLM — створити 300 раніше неопублікованих математичних завдань. У той час як традиційні LLM можуть вирішувати багато складних задач, коли їм ставили перед собою абсолютно нові завдання, більшість із них вирішували лише менше 2% правильно. Це демонструє, що їм бракує справжньої здатності до міркування.

У своєму останньому оціночному проекті Epoch AI залучила молодого математика, доктора філософії Елліота Глейзера, на посаду керівника. Новий проект під назвою FrontierMath буде запущено у вересні 2024 року.

У рамках проєкту було зібрано нові питання чотирьох рівнів складності, від рівня бакалаврату та магістратури до поглиблених досліджень. У квітні 2025 року Глейзер виявив, що o4-mini може вирішити близько 20% задач. Тому він негайно перевів його на 4-й рівень, вимагаючи від нього вирішення задач, з якими мали б труднощі навіть дуже просунуті математики.

Учасники мали підписати угоду про конфіденційність, спілкуючись лише через зашифрований додаток Signal, оскільки використання електронної пошти могло бути проскановано, а її вміст міг бути «вивчений» LLM, що призводило до фальсифікації даних оцінювання.

За кожну задачу, яку o4-mini не зможе вирішити, її автор отримає приз у розмірі 7500 доларів.

Початкова робоча група повільно, але стабільно готувала питання. Однак Глейзер вирішив пришвидшити процес, організувавши дводенну особисту зустріч 17–18 травня. У ній взяли участь тридцять математиків, розділених на групи по шість осіб, які змагалися один з одним — не у розв’язанні задач, а у створенні задач, які штучний інтелект не міг би розв’язати.

До вечора 17 травня Кен Оно почав розчаровуватися через чат-бота, який демонстрував рівень математичних здібностей, що значно перевищував очікування, що ускладнювало команді його «спіймати». «Я придумав проблему, яку галузеві експерти визнали б відкритою проблемою в теорії чисел – проблемою, придатною для докторської дисертації», – розповів він.

У результаті, коли він звернувся до o4-mini, він був приголомшений, побачивши, як чат-бот проаналізував, обґрунтував і надав правильне рішення всього за 10 хвилин. Зокрема, протягом перших двох хвилин він дослідив і опанував весь відповідний матеріал. Потім запропонував поекспериментувати з простішою версією задачі, щоб вивчити підхід.

Через п’ять хвилин чат-бот надав правильну відповідь, супроводжувану впевненим, навіть дещо зарозумілим, тоном. «Він почав поводитися хитро, — розповідала Оно, — і навіть додав: «Не потрібно цитувати, я вже розрахувала загадкове число!»

Зазнавши невдачі зі штучним інтелектом, вранці 18 травня Оно негайно надіслав команді повідомлення через Signal. «Я був абсолютно не готовий мати справу з такою моделлю», – сказав він. «Я ніколи не бачив такого мислення в комп’ютерній моделі. Вона думала так, як думає справжній вчений . І це було жахливо».

Хоча математикам врешті-решт вдалося знайти 10 питань, які спантеличили o4-mini, вони не змогли приховати свого подиву швидкістю розвитку штучного інтелекту всього за один рік.

Оно порівняла досвід роботи з o4-mini зі співпрацею з надзвичайно талановитим колегою. Ян Хуей Хе, математик з Інституту математичних наук у Лондоні та піонер у застосуванні штучного інтелекту в математиці, прокоментував: «Ось що може зробити дуже й дуже хороший аспірант — навіть більше».

І варто зазначити, що ШІ працює набагато швидше, ніж люди. У той час як людям на розв'язання потрібні тижні або місяці, o4-mini займає лише кілька хвилин.

Ажіотаж навколо боротьби розумів з o4-mini супроводжувався значним занепокоєнням. І Оно, і Хе попереджали, що можливості o4-mini можуть призвести до надмірної самовпевненості. «У нас є доказ за допомогою індукції, доказ від спростування, а тепер доказ за допомогою… переважної сили», – сказав Хе. «Якщо ви стверджуєте щось з достатньою впевненістю, інші почуватимуться заляканими. Я думаю, що o4-mini опанували цей тип доказу: що б він не говорив, це дуже достовірно».

Після завершення зустрічі математики почали розмірковувати про майбутнє математики. Вони обговорили можливість «п’ятого рівня» – питань, які не можуть розв’язати навіть найкращі математики світу. Якщо штучний інтелект досягне цього рівня, роль математика кардинально зміниться: він може стати тим, хто ставить запитання, взаємодіючи зі штучним інтелектом та керуючи ним у його міркуваннях для відкриття нових математичних істин – подібно до того, як професор працює з аспірантами.

«Я вже деякий час кажу своїм колегам, що було б серйозною помилкою вважати, що штучний інтелект у цілому ніколи не з’явиться, що це просто комп’ютер», – сказала Оно. «Я не хочу панікувати, але в деяких аспектах ці великі мовні моделі вже почали перевершувати більшість найкращих аспірантів світу».

(В'єтнам+)

Джерело: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp