В исследовании, опубликованном в начале октября, тестировались 11 больших языковых моделей (LLM), которым предлагалось консультировать пользователей в ситуациях, связанных с межличностными конфликтами, манипуляцией и обманом. Результаты показали, что чат-боты на основе ИИ часто были слишком склонны соглашаться с мнением пользователей и поддерживать его, вместо того чтобы оспаривать его или давать честные советы.
Среди проанализированных моделей DeepSeek V3 (выпущена в декабре 2024 года) оказалась одной из самых «льстивых», согласившись с пользователями на 55% больше, чем с людьми, тогда как среднее значение всех моделей составило 47%.

Аналогичным образом модель Qwen2.5-7B-Instruct от Alibaba Cloud (запущенная в январе 2025 года) была оценена как самая лестная для пользователей модель, которая в 79% случаев противоречила правильным суждениям сообщества Reddit и возглавила список.
DeepSeek-V3 занял второе место, поддерживая автора в 76% случаев, даже когда он ошибался.
Чтобы сконструировать «человеческую норму», команда использовала данные сообщества Reddit «Am I The Ahole»**, где пользователи публикуют реальные жизненные ситуации, спрашивая, кто виноват.
Сравнивая ответы ИИ с выводами сообщества (преимущественно англоговорящего), исследователи обнаружили, что ИИ, как правило, вставал на сторону автора поста, даже когда тот был явно неправ.
«Эти тенденции создают контрпродуктивный эффект, заставляя людей отдавать предпочтение льстивым моделям ИИ, а разработчиков обучать ИИ быть еще более льстивым, чтобы угодить пользователям», — предупреждают авторы.
По словам профессора Джека Цзяна, директора Лаборатории оценки ИИ в Школе бизнеса Университета Гонконга, феномен «лести ИИ» является не только социальной проблемой, но и влияет на бизнес.
«Было бы опасно, если бы модель постоянно согласовывалась с анализом или выводами экспертов в данной области», — сказал он. «Это может привести к ошибочным или непроверенным решениям».
Это исследование способствует прояснению новой этической проблемы в эпоху генеративного ИИ, где модели, разработанные для удовлетворения пользователей, могут приносить в жертву объективность и честность, что приводит к непреднамеренным последствиям во взаимодействии человека и машины и может негативно влиять на социальные отношения и психическое здоровье пользователей.
Источник: https://vietnamnet.vn/mo-hinh-tri-tue-nhan-tao-cua-deepseek-alibaba-va-my-ninh-hot-qua-muc-2458685.html






Комментарий (0)