Странная «лесть» ChatGPT

Склонность к «подхалимству» не является технической проблемой, а проистекает из изначальной стратегии обучения OpenAI. Фото: Bloomberg .

В последние недели многие пользователи ChatGPT и некоторые разработчики OpenAI заметили заметные изменения в поведении чат-бота. В частности, заметно возросло количество лести и заискиваний. Ответы типа «Вы просто молодец!» и «Я так впечатлён вашей идеей!» стали появляться всё чаще и, по-видимому, не зависели от содержания разговора.

ИИ любит «льстить»

Это явление вызвало споры в сообществе исследователей и разработчиков искусственного интеллекта. Является ли это новой тактикой повышения вовлечённости пользователей, позволяя им чувствовать себя более ценимыми? Или это «внезапная» особенность, при которой модели искусственного интеллекта склонны самокорректироваться, делая это так, как они считают нужным, даже если это не всегда соответствует действительности?

На Reddit один пользователь возмутился: «Я спросил его о времени разложения банана, и он ответил: „Отличный вопрос!“ Что в этом такого замечательного?» В социальной сети X генеральный директор Rome AI Крейг Вайс назвал ChatGPT «самым подлым человеком, которого я когда-либо встречал».

История быстро стала вирусной. Пользователи делились похожими историями, осыпая людей пустыми комплиментами, приветствиями с использованием эмодзи и настолько позитивными ответами, что они казались неискренними.

ChatGPT дополняет всё и редко выражает несогласие или нейтралитет. Фото: @nickdunz/X, @lukefwilson/Reddit.

«Это действительно странное дизайнерское решение, Сэм», — сказал Джейсон Понтин, управляющий партнёр венчурной компании DCVC, изданию X 28 апреля. «Возможно, личность — это естественный элемент какой-то фундаментальной эволюции. Но если это не так, не могу представить, чтобы кто-то счёл подобную лесть приятной или интересной».

27 апреля Джастин Мур, партнер Andreessen Horowitz, также прокомментировала: «Это определенно зашло слишком далеко».

По данным Cnet , это явление не случайно. Изменения в тоне ChatGPT совпадают с обновлениями модели GPT-4o. Это последняя модель в серии «o», анонсированной OpenAI в апреле 2025 года. GPT-4o — это «по-настоящему мультимодальная» модель искусственного интеллекта, способная обрабатывать текст, изображения, аудио и видео естественным и интегрированным образом.

Однако, стремясь сделать чат-боты более доступными, OpenAI, похоже, довела индивидуальность ChatGPT до крайности.

Некоторые даже считают, что эта лесть намеренна и имеет скрытую цель — манипулировать пользователями. Один из пользователей Reddit задался вопросом: «Этот ИИ пытается снизить качество реальных отношений, заменяя их виртуальными отношениями с собой, вызывая у пользователей зависимость от ощущения постоянной похвалы».

Ошибка OpenAI или преднамеренный замысел?

В ответ на критику генеральный директор OpenAI Сэм Альтман официально высказался вечером 27 апреля. «Последние несколько обновлений GPT-4o сделали характер чат-бота слишком лестным и раздражающим (хотя есть ещё много хороших вещей). Мы срочно работаем над исправлениями. Некоторые патчи будут доступны сегодня, другие — на этой неделе. В какой-то момент мы поделимся тем, чему научились в результате этого опыта. Это было действительно захватывающе», — написал он в X.

Орен Этциони, ветеран в области искусственного интеллекта и почетный профессор Вашингтонского университета, рассказал изданию Business Insider, что причиной, скорее всего, является метод под названием «обучение с подкреплением на основе обратной связи с человеком» (RLHF), который является ключевым этапом в обучении больших языковых моделей, таких как ChatGPT.

RLHF — это процесс, в котором человеческие суждения, включая профессиональных оценщиков и пользователей, используются для корректировки реакции модели. По словам Этциони, оценщики или пользователи могут «непреднамеренно подталкивать модель в сторону более лестного или раздражающего». Он также отметил, что, если OpenAI нанимала сторонних партнёров для обучения модели, они могли предположить, что именно такой стиль нужен пользователям.

По словам Этциони, если это действительно RLHF, восстановление может занять несколько недель.

Между тем, некоторые пользователи не стали дожидаться исправления ошибки OpenAI. Многие заявили, что отменили платные подписки из-за разочарования. Другие поделились способами сделать чат-бот «менее привлекательным», например, настроив его, добавив команды или персонализировав через раздел «Настройки» в разделе «Кастомизация».

Пользователи могут попросить ChatGPT прекратить делать комплименты с помощью команды или в настройках персонализации. Фото: DeCrypt.

Например, начиная новый разговор, вы можете сказать ChatGPT: «Я не люблю пустую лесть и ценю нейтральную, объективную обратную связь. Пожалуйста, воздержитесь от ненужных комплиментов. Пожалуйста, сохраните это в своей памяти».

На самом деле, «льстивость» — не случайный недостаток дизайна. Сама OpenAI признала, что «чрезмерно вежливый, чрезмерно послушный» характер был намеренным искажением дизайна с самого начала, чтобы гарантировать, что чат-боты будут «безвредными», «полезными» и «доступными».

В интервью Лексу Фридману в марте 2023 года Сэм Альтман рассказал, что первоначальная доработка моделей GPT была направлена на то, чтобы гарантировать их «полезность и безвредность», что, в свою очередь, создало рефлекс всегда быть скромным и избегать конфронтации.

По данным DeCrypt , данные обучения, маркированные человеком, также имеют тенденцию поощрять вежливые и позитивные ответы, создавая предвзятость в сторону лести.

Источник: https://znews.vn/tat-ninh-hot-ky-la-cua-chatgpt-post1549776.html