Штучний інтелект таємно оцінює людей.

Замість того, щоб люди оцінювали ШІ, як раніше, Anthropic змінила процес на протилежний. Claude аналізуватиме історію чату користувачів, щоб оцінити їхній «рівень» використання ШІ.

ZNews•31/05/2026

Шабо Клод оцінює рівень володіння мовою користувача на основі взаємодій. Зображення: VectorStock .

Останнє дослідження Anthropic під назвою «Індекс вільного володіння ШІ» змінило загальноприйняту думку, пропонуючи чат-боту Клоду оцінювати людей. Аналізуючи структуру розмов, ШІ оцінює рівень володіння мовами користувачів за 11-бальною шкалою.

Для розробки рамки компетенцій, що складається з 24 стандартів, Anthropic використала аналітичні інструменти для сканування 9830 реальних розмов користувачів.

З них 13 критеріїв знаходяться поза екраном, наприклад, чи приховують користувачі використання ШІ від свого керівництва. Решта 11 критеріїв – це метрики поведінки користувачів, поділені на три основні аспекти: опис, авторизація та ідентифікація.

Поширеність кожного поведінкового показника у взаємодіях ШІ протягом 9830 розмов з Клодом. Зображення: Anthropic.

По-перше, це спосіб опису запиту, де користувачі повинні продемонструвати справжнє розуміння того, чого вони хочуть. Замість того, щоб давати розпливчасті команди, високо оцінені особи завжди чітко формулюють кінцеву мету та детально пояснюють контекст. Вони також висувають дуже конкретні вимоги щодо стилю презентації, такі як прохання до ШІ створювати таблиці або обмежувати кількість слів. Примітно, що ця група часто включає кілька зразків есе як приклади для ШІ, щоб «імітувати» правильний стиль з самого початку.

Другий аспект – це спосіб делегування завдань. Дослідження показують, що досвідчені користувачі ставляться до ШІ як до партнера в обговоренні, а не до бездумної машини. Найбільша різниця полягає в наполегливості. Замість того, щоб дати команду раз і назавжди, вони беруть участь у кількох раундах обговорень, щоб уточнити та переглянути відповіді ШІ, доки вони не будуть повністю задоволені. Така поведінка спостерігається у 85,7% високоякісних розмов.

Останній аспект – це розпізнавання, яке діє як фільтр, що запобігає введенню людей в оману інформацією, що надається чат-ботами. Користувачам потрібно постійно ставити під сумнів логіку міркувань, просити ШІ пояснити кожен рядок коду або запитувати чіткі цитати. Вони також повинні бути достатньо проникливими, щоб виявляти відсутній контекст у рішенні ШІ, щоб своєчасно робити оцінки та коригувати висновки.

Досвідчені користувачі зазвичай отримують від Clade оцінку близько 7-8. Фото: X.

Однак дослідження також вказує на тривожну психологічну пастку, відому як «Парадокс красивого інтерфейсу». Коли функція «Артефакти» Клода створює візуально привабливі продукти, такі як гладкий фрагмент коду або ідеальна діаграма, наш мозок одразу ж схильний ставати «лінивим мислителем» і перестає критично мислити.

Статистика дослідження показує, що коли користувачі бачать відшліфований інтерфейс, відсоток тих, хто активно шукає недоліки, одразу зменшується на 5,2%. Можливість перевірити достовірність інформації також зменшується на 3,7%, а відсоток тих, хто сумнівається в її логіці, зменшується на 3,1%.

«Якщо щось виглядає ідеально, користувачі автоматично вважатимуть це правильним», – зазначили експерти Anthropic.

Такий суб'єктивний підхід надзвичайно небезпечний. Фактично, чим складніше завдання, тим вища ймовірність того, що ШІ припуститься помилок або «фальсифікує» інформацію. Якщо люди оцінюватимуть внутрішню якість виключно за зовнішнім виглядом, ШІ дуже легко нас обдурить.

Згідно зі звітом, ті, хто регулярно веде обговорення та вказує на недоліки ШІ, отримують у 5-6 разів вищі оцінки, ніж середні користувачі. Вони також частіше виявляють недоліки та невідповідності порівняно з рештою групи користувачів. Ці «експерти» зазвичай отримують від Claude оцінки близько 7-8/11.

Джерело: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html