Штучному інтелекту потрібно лише 10 секунд, щоб вирішити задачу на випускний іспит у середній школі

Існує чат-бот, якому потрібно в середньому лише 10 секунд на кожне питання на випускному іспиті з математики у 2025 році. Результати досить вражаючі, але вони не чітко демонструють процес міркування штучного інтелекту.

ZNews•27/06/2025

Багато кандидатів зазначили, що тест з математики був довгим і його було важко виконати за 90 хвилин. Однак це не є перешкодою для ШІ. Фото: Дуй Х'єу .

26 червня вдень кандидати склали тест з математики на випускному іспиті середньої школи 2025 року, час складання якого становив 90 хвилин. Це був перший тест після того, як Міністерство освіти та навчання запровадило новий формат, який, як кажуть, складніший, ніж у попередні роки.

Хоча цьогорічні математичні задачі можуть бути складними для кандидатів, оскільки вони довгі та трудомісткі, чат-боти зі штучним інтелектом не потребують багато часу на їх розв'язання. Щоб перевірити ефективність штучного інтелекту, Tri Thuc-Znews використали 4 чат-боти, включаючи ChatGPT, Google Gemini, Claude AI та Grok AI, для вирішення деяких есе-питань цьогорічного випускного іспиту.

Швидка обробка, результати "влучно або невлучно"

Чат-боти використовувалися для відповіді на короткі запитання тестового коду 0109. Серед них ChatGPT та Gemini дали найбільше правильних результатів з найменшою затримкою. Обидва чат-боти відповіли на 6 запитань з часом 7-15 секунд на кожне запитання. Однак Gemini зміг вирішити вищезазначені проблеми за допомогою моделі Flash 2.5 (без міркувань), яка допомагає обробляти інформацію швидко та комплексно.

Тим часом Клод повністю провалив свої розрахунки, постійно видаючи неправильні результати. Незважаючи на те, що його попросили перерахувати, чат-бот Anthropic все одно давав ту саму відповідь. Грок правильно відповів приблизно на половину запитань, але з довгим часом відповіді (більше 2 хвилин на кожне запитання).

Для ChatGPT та Grok розв'язання цих питань вимагає версії з логічним висновком, яка займає набагато більше часу. Gemini дуже швидкий, можливо, 5 секунд для найшвидшого питання, і використовує лише модель Flash 2.5.

ChatGPT дуже яскраво презентує процес мислення.

Що стосується швидкості, Gemini мав найшвидший час обробки, в середньому менше ніж 10 секунд на задачу, але мав складніші, багатослівніші та важкі для виконання рішення. Далі йшла модель логічного висновку ChatGPT, яка в середньому займала 25 секунд. Тим часом, хоча Grok все ще отримував правильні результати, йому знадобилося багато часу на міркування, 148 секунд на помірно складне запитання.

Хоча запитання були поставлені в'єтнамською мовою, всі три моделі представили свій процес міркування англійською мовою. ChatGPT мав найкоротший опис, з багатьма ілюстраціями, графіками та легким для розуміння аналізом. Gemini також уточнив та представив мислення моделі по порядку.

Зокрема, Grok має найбільш схожий на людський процес мислення. Модель постійно запитує себе: «однак, зачекайте, навпаки», подібно до того, як це робить студент під час розв’язання математичної задачі. Це може призвести до того, що чат-бот надмірно обмірковувати проблему та уповільнити час відповіді.

Гроку знадобилося 148 секунд, щоб детальніше пояснити свої результати.

Штучний інтелект вирішує математичні задачі інакше, ніж люди

Дослідження Apple показало, що моделі логічного висновку насправді не використовують мозок, а просто навчаються механічно з існуючих даних. Дослідження також показує, що штучний інтелект має зовсім інший процес мислення, ніж люди, тому вони намагаються імітувати те, як ми вирішуємо проблему. Однак можливо, що процес міркування просто вигаданий моделлю.

У контексті того, що випускні іспити у середній школі стають дедалі складнішими та вимагають високого аналітичного мислення, використання штучного інтелекту для довідки та навчання більше не є дивним для учнів. Серед чат-ботів, що використовувалися вище, ChatGPT та Gemini – це два підходящих варіанти для тих, хто самостійно навчається, щоб знайти рішення складних проблем.

Учні Ханоя на випускному іспиті у 2025 році. Фото: В'єт Ха .

Однак, хоча ШІ швидко та легко дає результати, розробники ще не до кінця розуміють процес його міркування. В академічному середовищі здатність людського мислення все ще є ключовим фактором. Пан Туан Нгуєн, викладач міжнародного університету в Хошиміні, сказав, що використання ШІ є нормальним явищем, але студенти повинні розуміти урок, практикувати критичне мислення та опанувати розумні інструменти для ефективнішого навчання.

Пан Тран Мань Тунг, завідувач кафедри математики середньої школи Ньютона, зазначив, що іспит був схожий за форматом на зразковий іспит, раніше опублікований Міністерством освіти та навчання. «Однак, якщо порівняти його за шкалою, справжній іспит був складнішим і мав більше диференціації, ніж пробний іспит», – зазначив він.

Цьогорічний іспит складається з трьох частин, що відповідають трьом римським цифрам. Перші дві частини мають формат множинного вибору, що не надто складно для кандидатів, щоб легко отримати бали, сказав пан Тунг. Однак решта частин – це короткі питання, подібні до формату есе багаторічної давнини, за винятком того, що кандидатам потрібно лише заповнити результати і не потрібно їх представляти.

Джерело: https://znews.vn/ai-chi-mat-10-giay-de-giai-bai-toan-thi-tot-nghiep-thpt-post1563990.html