Попередження про те, що ChatGPT є «галюциногенним»

Нещодавні дослідження показали, що GPT o3 та o4-mini – найпотужніші моделі в портфоліо продуктів OpenAI – фабрикують ще більше неправдивої інформації, ніж їхні попередники.

ZNews•20/04/2025

Дві нещодавно запущені моделі ChatGPT мають вищу частоту використання сфабрикованої інформації, ніж попереднє покоління. Фото: Fireflies .

Всього через два дні після анонсу GPT-4.1, OpenAI офіційно запустила не одну, а дві нові моделі під назвами o3 та o4-mini. Обидві моделі демонструють чудові можливості мислення з багатьма потужними покращеннями.

Однак, за даними TechCrunch , ці дві нові моделі все ще страждають від «галюцинацій» або самовинахідливості. Фактично, вони демонструють більше галюцинацій, ніж деякі зі старіших моделей OpenAI.

За даними IBM, галюцинації – це явище, коли великі мовні моделі (LLM) – часто чат-боти або інструменти комп’ютерного зору – отримують шаблони даних, яких не існує або які не можуть розпізнати люди, тим самим створюючи безглузді або неточні результати.

Іншими словами, користувачі часто очікують, що ШІ надаватиме точні результати на основі навчених даних. Однак у деяких випадках результати ШІ не базуються на точних даних, що створює «хибну» відповідь.

У своєму останньому звіті OpenAI виявила, що o3 був «ілюзорним» при відповідях на 33% запитань PersonQA, внутрішнього стандарту компанії для вимірювання точності знань моделі про людей.

Для порівняння, цей показник вдвічі перевищує показник «ілюзії» попередніх моделей міркувань OpenAI, o1 та o3-mini, які становили 16% та 14,8% відповідно. Тим часом модель O4-mini показала ще гірші результати на PersonQA, зазнаючи «ілюзії» протягом 48% тривалості тестування.

Що ще більш тривожно, «батько ChatGPT» насправді не знає, чому це відбувається. Зокрема, у своєму технічному звіті про o3 та o4-mini OpenAI заявляє, що «потрібні подальші дослідження, щоб зрозуміти, чому «галюцинації» посилюються» під час масштабування моделей міркування.

O3 та o4-mini показують кращі результати в деяких сферах, зокрема в програмуванні та математичних завданнях. Однак, оскільки їм потрібно «робити більше тверджень, ніж загальних», обидві моделі призвели до «більш точних тверджень, але також і більш неточних тверджень».

Джерело: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html