Чат-боты на основе искусственного интеллекта сходят с ума

В апреле бот на основе искусственного интеллекта, отвечающий за техническую поддержку Cursor, нового инструмента для программистов, уведомил некоторых клиентов об изменении политики компании, в частности о том, что им больше не разрешается использовать Cursor на более чем одном компьютере.

Клиенты выражали своё возмущение на форумах и в социальных сетях. Некоторые даже удалили свои учётные записи в Cursor. Но некоторые пришли в ещё большую ярость, когда поняли, что произошло: ИИ-бот сообщил об изменении политики, которого не было.

«У нас нет такой политики. Конечно, вы можете использовать Cursor на нескольких устройствах. К сожалению, это был неверный ответ бота на базе искусственного интеллекта», — написал Майкл Труэлл, генеральный директор и соучредитель компании, в сообщении на Reddit.

Ложная информация вышла из-под контроля.

Спустя два года после запуска ChatGPT технологические компании, офисные работники и обычные потребители все чаще используют ботов на базе ИИ для решения широкого спектра задач.

Однако нет способа гарантировать точность информации, выдаваемой этими системами. Как ни парадоксально, самые мощные новые технологии, известные как системы «вывода» от таких компаний, как OpenAI, Google и DeepSeek, допускают всё больше ошибок.

Бессмысленный диалог в ChatGPT, где пользователь спрашивает, можно ли собакам есть хлопья. Фото: Reddit.

Хотя математические навыки значительно улучшились, способность больших языковых моделей (LLM) улавливать истину стала менее устойчивой. Удивительно, но даже сами инженеры совершенно не понимают, почему.

По данным New York Times , современные чат-боты на основе искусственного интеллекта используют сложные математические системы для обучения навыкам, анализируя огромные объёмы цифровых данных. Однако они не могут определить, что правильно, а что нет.

Отсюда возникает состояние «галлюцинации» или самопроизвольного создания информации. Более того, согласно исследованиям, последнее поколение LLM страдает от «галлюцинаций» даже больше, чем некоторые предыдущие модели.

В частности, в последнем отчете OpenAI обнаружила, что модель o3 «галлюцинировала», отвечая на 33% вопросов PersonQA — внутреннего стандарта компании для измерения точности знаний модели о людях.

Для сравнения, это вдвое превышает частоту «галлюцинаций» предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые давали сбои в 16% и 14,8% случаев соответственно. В то же время, модель o4-mini показала ещё худшие результаты на PersonQA, давая сбои в 48% случаев.

Ещё более тревожно то, что «отец ChatGPT» на самом деле не знает, почему это происходит. В частности, в техническом отчёте по o3 и o4-mini OpenAI пишет, что «необходимы дальнейшие исследования, чтобы понять, почему эта „иллюзия“ усугубляется» по мере масштабирования моделей рассуждений.

Модели o3 и o4-mini показали лучшие результаты в некоторых областях, включая программирование и математические задачи. Однако, поскольку им требовалось «делать больше утверждений, чем обобщать», обе модели давали «больше верных, но и больше неверных утверждений».

«Это никогда не исчезнет».

Вместо строгого набора правил, разработанных инженерами-людьми, системы LLM используют математическую вероятность для определения наилучшего ответа. Поэтому они всегда допускают ошибки.

«Несмотря на все наши усилия, модели ИИ всегда будут иллюзорными. Это никогда не исчезнет», — сказал Амр Авадаллах, бывший руководитель Google.

По данным IBM, галлюцинации возникают, когда большая языковая модель (LLM) — обычно чат-бот или инструмент компьютерного зрения — получает шаблоны данных, которых не существует или которые не распознаются человеком, что приводит к бессмысленным или вводящим в заблуждение результатам. Фото: iStock.

В подробной статье об экспериментах представители OpenAI заявили, что необходимы дополнительные исследования, чтобы понять причины таких результатов.

По словам экспертов, поскольку системы искусственного интеллекта обучаются на гораздо больших объемах данных, чем может понять человек, может быть сложно определить, почему они ведут себя определенным образом.

«Галлюцинации изначально чаще встречаются в моделях вывода, хотя мы активно работаем над снижением их частоты в o3 и o4-mini. Мы продолжим работать над галлюцинациями во всех моделях, чтобы повысить точность и надёжность», — заявила Габи Раила, представитель OpenAI.

Тесты, проведенные несколькими независимыми компаниями и исследователями, показывают, что уровень иллюзий также увеличивается для моделей вывода таких компаний, как Google или DeepSeek.

С конца 2023 года компания Авадаллаха Vectara отслеживает частоту распространения ложной информации чат-ботами. Компания попросила системы выполнить простую и легко проверяемую задачу — составить краткое содержание конкретных новостных статей. Но даже в этом случае чат-боты продолжали фальсифицировать информацию.

В частности, первоначальное исследование Vectara показало, что в этом сценарии чат-боты фальсифицировали информацию как минимум в 3% случаев, а иногда и в 27%.

За последние полтора года такие компании, как OpenAI и Google, снизили эти показатели примерно до 1–2%. Другие, например, стартап из Сан-Франциско Anthropic, колеблются около 4%.

Однако частота галлюцинаций в этом тесте продолжала расти для систем вывода. Частота галлюцинаций увеличилась на 14,3% для системы вывода R1 DeepSeek, тогда как для системы вывода o3 OpenAI — на 6,8%.

Другая проблема заключается в том, что модели вывода предназначены для того, чтобы тратить время на «обдумывание» сложных проблем, прежде чем прийти к окончательному ответу.

Apple добавила в первую тестовую версию macOS 15.1 предупреждение, запрещающее ИИ фальсифицировать информацию. Фото: Reddit/devanxd2000.

Однако недостаток заключается в том, что, пытаясь решить задачу шаг за шагом, модель ИИ становится всё более подверженной галлюцинациям на каждом этапе. Что ещё важнее, ошибки могут накапливаться, поскольку модель тратит всё больше времени на размышления.

Новейшие боты показывают пользователям каждый шаг, а значит, они также могут видеть каждую ошибку. Исследователи также обнаружили, что во многих случаях ход мыслей, демонстрируемый чат-ботом, на самом деле не связан с его окончательным ответом.

«То, что система утверждает, что она рассуждает, не обязательно является тем, что она на самом деле думает», — говорит Арио Прадипта Джема, исследователь искусственного интеллекта из Эдинбургского университета и участник проекта Anthropic.

Источник: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html