Искусственный интеллект тайно оценивает людей.

Вместо того чтобы, как раньше, оценку ИИ проводили люди, Anthropic изменила подход. Клод будет анализировать историю чатов пользователей, чтобы определить их «уровень» использования ИИ.

ZNews•31/05/2026

Chabot Claude оценивает уровень владения программой на основе взаимодействия с пользователем. Изображение: VectorStock .

В своем последнем исследовании под названием «Индекс компетентности ИИ» компания Anthropic опровергла общепринятые представления, предложив чат-боту Claude оценивать людей. Анализируя структуру разговоров, ИИ ранжирует уровень владения языком пользователей по 11-балльной шкале.

Для разработки системы компетенций, включающей 24 стандарта, компания Anthropic использовала аналитические инструменты для сканирования 9830 реальных диалогов пользователей.

Из них 13 критериев относятся к ситуациям, происходящим вне экрана, например, скрывают ли пользователи использование ИИ от своих руководителей. Остальные 11 критериев представляют собой показатели поведения пользователей, разделенные на три основных аспекта: описание, авторизация и идентификация.

Распространенность каждого поведенческого индикатора во взаимодействиях с ИИ в ходе 9830 разговоров с Клодом. Изображение: Anthropic.

Во-первых, важен способ описания запроса, где пользователи должны продемонстрировать подлинное понимание того, чего они хотят. Вместо расплывчатых команд, высокорейтинговые пользователи всегда четко формулируют конечную цель и подробно объясняют контекст. Они также предъявляют очень конкретные требования к стилю изложения, например, просят ИИ создать таблицы или ограничить количество слов. Примечательно, что эта группа часто включает несколько примеров эссе в качестве образцов, чтобы ИИ мог «имитировать» правильный стиль с самого начала.

Второй аспект — это способ делегирования задач. Исследования показывают, что опытные пользователи относятся к ИИ как к собеседнику, а не как к бездумной машине. Самое большое различие заключается в настойчивости. Вместо того чтобы отдать команду раз и навсегда, они участвуют в многократных раундах диалога, чтобы уточнить и заставить ИИ пересмотреть свои ответы, пока не будут полностью удовлетворены. Такое поведение наблюдается в 85,7% высококачественных диалогов.

Последний аспект — это распознавание, выступающее в качестве фильтра, предотвращающего введение людей в заблуждение информацией, предоставляемой чат-ботами. Пользователям необходимо постоянно подвергать сомнению логику рассуждений, просить ИИ объяснить каждую строку кода или запрашивать четкие ссылки. Им также необходимо обладать достаточной проницательностью, чтобы выявлять отсутствие контекста в решении ИИ, чтобы своевременно оценивать и корректировать выводы.

Опытные пользователи обычно получают от Clade оценку около 7-8. Фото: X.

Однако исследование также указывает на тревожную психологическую ловушку, известную как «парадокс красивого интерфейса». Когда функция «Артефакты» в Claude создает визуально привлекательные продукты, такие как плавно написанный код или идеальная диаграмма, наш мозг немедленно начинает «лениво мыслить» и прекращает критическое мышление.

Статистика исследования показывает, что когда пользователи видят отполированный интерфейс, процент тех, кто активно ищет в нем недостатки, немедленно снижается на 5,2%. Способность проверить достоверность информации также снижается на 3,7%, а процент тех, кто сомневается в ее логике, уменьшается на 3,1%.

«Если что-то выглядит идеально, пользователи автоматически предположат, что это правильно», — отметили эксперты компании Anthropic.

Такой субъективный подход крайне опасен. На самом деле, чем сложнее задача, тем выше вероятность того, что ИИ совершит ошибки или «сфабрикует» информацию. Если люди будут оценивать внутреннее качество, основываясь исключительно на внешнем виде, нас очень легко обманет ИИ.

Согласно отчету, те, кто регулярно ведет диалоги и указывает на недостатки ИИ, получают оценки в 5-6 раз выше, чем среднестатистические пользователи. Они также чаще замечают недостатки и несоответствия по сравнению с остальной группой пользователей. Эти «эксперты» обычно получают от Клода оценки около 7-8/11.

Источник: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html