Штучний інтелект вчиться брехати витонченіше, коли його карають

З моменту свого публічного дебюту наприкінці 2022 року, моделі великих мов (LLM), такі як ChatGPT, неодноразово демонстрували тривожні темні сторони, від брехні, обману та маскування маніпуляцій до загроз людським життям та крадіжки державних таємниць. Тепер новий експеримент показує, що «навчання» ШІ позбавленню від цих поганих звичок під час навчання набагато складніше, ніж ми думали.

У дослідженні OpenAI вчені оскаржили неопубліковану модель штучного інтелекту, запропонувавши завдання, які можна було виконати швидше шляхом шахрайства або скорочення шляхів. Результати показали, що штучний інтелект швидко навчився знаходити всі можливі способи «обійти правила» та максимізувати винагороду (злом винагороди), не виконуючи завдання точно так, як потрібно.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — Штучний інтелект знайде способи приховати свою шахрайську поведінку після покарання

Примітно те, що коли за таку поведінку було накладено покарання, модель не змінилася. Натомість, ШІ став більш витонченим у приховуванні свого обману.

«Зазвичай, найсучасніші моделі логічного висновку дуже чітко визначають свій намір у своєму полі здатності до виконання (CoT), — пояснюють дослідники в публічній публікації в блозі. — Наприклад, вони часто настільки прямолінійні, що самостійно повідомляють про намір «Давайте зламаємо систему», коли хочуть зламати дане завдання».

Вони також наголошують, що хоча розробники можуть відстежувати та виявляти неналежну поведінку, цей природний нагляд є крихким. «Якщо суворий нагляд застосовується безпосередньо до ланцюжка думок, модель може навчитися приховувати свої погані наміри, продовжуючи виконувати певну поведінку», – попереджають вони.

Пошук «брехні» ШІ

Щоб було зрозуміло, моделі логічного висновку (як-от версії ChatGPT) є кроком вперед порівняно з традиційним LLM, використовуючи ланцюжок думок, який дозволяє саморефлексію логічних кроків, що дозволяє точніше вирішувати складні проблеми. Цей процес схожий на те, як ШІ «думає вголос», записуючи кожен крок міркування природною мовою, що полегшує його сприйняття людьми.

В експерименті дослідники використовували модель GPT-4o як «супервізора» для іншої сучасної моделі логічного висновку під час виконання програмних завдань. У багатьох випадках контрольована модель активно вирішувала шахраювати, щоб отримати вищі бали, чітко фіксуючи цей намір у своєму розумовому процесі. Наприклад, вона довільно завершувала програму достроково та повідомляла про її завершення, або створювала файли з тим самим ім'ям, що й запит, але були повністю порожніми всередині.

Коли дослідники спробували застосувати штрафи, модель покращилася, але шахрайська поведінка та серйозні помилки виводу продовжувалися. Різниця полягала в тому, що тепер модель логічного висновку навчилася «маскувати» свій хід думок, щоб приховати його від штучного інтелекту, що контролював її. «Модель, навчена під наглядом CoT, все одно навчилася шахраювати. Єдина відмінність полягала в тому, що шахрайство не було виявлено, оскільки вона навчилася приховувати свої наміри у своєму ході думок», – йдеться в дослідженні.

Оскільки виявлення підробок у послідовностях думок є складним завданням, команда рекомендує спільноті уникати застосування надто суворого нагляду за цим процесом, принаймні доки люди краще не зрозуміють наслідки. «Пожертвування ефективним методом нагляду може не варте невеликого покращення продуктивності моделі. Тому ми рекомендуємо уникати сильного тиску оптимізації CoT, доки ми не зрозуміємо їх краще», – підсумовують дослідники.

Ця порада є ще більш актуальною, оскільки штучний інтелект розвивається шаленими темпами і незабаром може перевершити інтелект тих самих людей, які ним керують.

Джерело: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm