Чат-боти зі штучним інтелектом стають дедалі «божевільнішими».

Нова хвиля систем «логічного висновку» від таких компаній, як OpenAI, призводить до частішого поширення дезінформації. Небезпечно те, що ці компанії також не знають, чому.

ZNews•08/05/2025

У квітні бот зі штучним інтелектом, який займався технічною підтримкою Cursor, швидко зростаючого інструменту для програмістів, повідомив деяких клієнтів про зміну політики компанії. Зокрема, в повідомленні зазначалося, що їм більше не дозволено використовувати Cursor на більш ніж одному комп’ютері.

На форумах та в соціальних мережах клієнти висловлювали своє обурення. Деякі навіть скасували свої облікові записи Cursor. Однак деякі ще більше розлютилися, коли зрозуміли, що сталося: бот на базі штучного інтелекту оголосив про зміну політики, якої не існувало.

«У нас немає такої політики. Ви, звичайно, можете використовувати Cursor на кількох машинах. На жаль, це неточна відповідь бота, що працює на базі штучного інтелекту», – написав у дописі на Reddit Майкл Труелл, генеральний директор і співзасновник компанії.

Поширення фейкових новин є безконтрольним та масовим.

Більш ніж через два роки після появи ChatGPT, технологічні компанії, офісні працівники та звичайні споживачі дедалі частіше використовують ботів на базі штучного інтелекту для виконання низки завдань.

Однак досі немає способу гарантувати, що ці системи генерують точну інформацію. Як не парадоксально, найновіші та найпотужніші технології, також відомі як системи «виводу», від таких компаній, як OpenAI, Google та DeepSeek, насправді створюють більше помилок.

Безглузда розмова на ChatGPT, де користувач запитує, чи варто годувати собаку пластівцями. Фото: Reddit.

На відміну від значно покращених математичних навичок, здатність моделей великих мов (LLM) сприймати істину стала більш хиткою. Дивно, що навіть самі інженери повністю збентежені, чому.

Згідно з New York Times , сучасні чат-боти на базі штучного інтелекту покладаються на складні математичні системи для навчання навичок шляхом аналізу величезних обсягів числових даних. Однак вони не можуть вирішити, що правильно, а що неправильно.

Звідси виникає феномен «галюцинацій» або самовинахідливості. Фактично, згідно з дослідженнями, новітнє покоління LLM відчуває «галюцинації» частіше, ніж деякі старіші моделі.

Зокрема, у своєму останньому звіті OpenAI виявила, що модель o3 була «ілюзорною» при відповідях на 33% запитань PersonQA, внутрішнього стандарту компанії для вимірювання точності знань моделі про людей.

Для порівняння, цей показник вдвічі перевищує показник «ілюзії» попередніх моделей міркувань OpenAI, o1 та o3-mini, які становили 16% та 14,8% відповідно. Тим часом модель o4-mini показала ще гірші результати на PersonQA, зазнаючи «ілюзії» протягом 48% тривалості тестування.

Що ще більш тривожно, «батько ChatGPT» насправді не знає, чому це відбувається. Зокрема, у своєму технічному звіті про o3 та o4-mini OpenAI заявляє, що «потрібні подальші дослідження, щоб зрозуміти, чому «галюцинації» посилюються» під час масштабування моделей міркування.

o3 та o4-mini показують кращі результати в деяких сферах, зокрема в програмуванні та математичних завданнях. Однак, оскільки їм потрібно «робити більше тверджень, ніж загальних», обидві моделі призвели до «більш точних тверджень, але також і більш неточних тверджень».

«Це ніколи не зникне».

Замість суворого набору правил, визначених інженерами-людьми, системи LLM використовують математичні ймовірності для прогнозування найкращої відповіді. Тому вони завжди допускатимуть певну кількість помилок.

«Незважаючи на всі наші зусилля, моделі штучного інтелекту завжди будуть обманюватися. Це ніколи не зникне», – сказав Амр Авадаллах, колишній керівник Google.

За даними IBM, галюцинації – це явище, коли великі мовні моделі (LLM) – часто чат-боти або інструменти комп’ютерного зору – отримують шаблони даних, яких не існує або які не можуть розпізнати люди, тим самим створюючи безглузді або неточні результати. Зображення: iStock.

У детальній статті про експерименти OpenAI заявила, що їй потрібні подальші дослідження, щоб зрозуміти причину цих результатів.

За словами експертів, оскільки системи штучного інтелекту навчаються на набагато більших обсягах даних, ніж люди можуть осягнути, стає дуже важко визначити, чому вони поводяться саме так.

«Ілюзія за своєю суттю частіше зустрічається в моделях логічного висновку, хоча ми активно працюємо над зниженням частоти її виникнення в o3 та o4-mini. Ми продовжуватимемо вивчати ілюзію в усіх моделях, щоб підвищити точність і надійність», – сказала Габі Райла, речниця OpenAI.

Тести численних незалежних компаній та дослідників показують, що рівень галюцинацій також зростає для моделей логічного висновку від таких компаній, як Google або DeepSeek.

З кінця 2023 року компанія Авадалли, Vectara, відстежує частоту поширення дезінформації чат-ботами. Компанія доручила цим системам просте, легко перевірене завдання: узагальнення певних статей. Навіть тоді чат-боти наполегливо фальсифікували інформацію.

Зокрема, початкове дослідження Vectara показало, що, згідно з цією гіпотезою, чат-боти фальсифікували інформацію щонайменше у 3% випадків, а іноді й у 27%.

За останні півтора року такі компанії, як OpenAI та Google, зменшили ці цифри приблизно до 1 або 2%. Інші, як-от стартап Anthropic із Сан-Франциско, коливаються близько 4%.

Однак, у цьому експерименті рівень галюцинацій для систем мислення продовжував зростати. Система мислення R1 від DeepSeek відчувала галюцинації на 14,3%, тоді як o3 від OpenAI збільшився на 6,8%.

Ще одна проблема полягає в тому, що моделі логічного висновку розроблені таким чином, щоб витрачати час на «роздуми» над складними проблемами, перш ніж дійти до остаточної відповіді.

Apple включила запит, щоб запобігти фальсифікації інформації штучним інтелектом у першу бета-версію macOS 15.1. Зображення: Reddit/devanxd2000.

Однак недоліком є те, що під час спроби розв'язати проблему крок за кроком модель штучного інтелекту, швидше за все, зіткнеться з галюцинаціями на кожному кроці. Що ще важливіше, помилки можуть накопичуватися, оскільки модель витрачає більше часу на роздуми.

Найновіші боти відображають кожен крок користувачеві, а це означає, що користувачі також можуть бачити кожну помилку. Дослідники також виявили, що в багатьох випадках хід думок, який відображає чат-бот, насправді не пов'язаний з остаточною відповіддю, яку він надає.

«Те, про що система каже, що міркує, не обов’язково відповідає тому, що вона насправді думає», — каже Арьо Прадіпта Гема, дослідник штучного інтелекту в Единбурзькому університеті та автор Anthropic.

Джерело: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html