
В апреле бот на основе искусственного интеллекта, отвечающий за техническую поддержку Cursor, нового инструмента для программистов, уведомил некоторых клиентов об изменении политики компании, в частности о том, что им больше не разрешается использовать Cursor на более чем одном компьютере.
Клиенты выражали своё возмущение на форумах и в социальных сетях. Некоторые даже удалили свои учётные записи в Cursor. Но некоторые разозлились ещё больше, когда поняли, что произошло: бот на базе искусственного интеллекта сообщил об изменении политики, которого не было.
«У нас нет такой политики. Конечно, вы можете использовать Cursor на нескольких устройствах. К сожалению, это был неверный ответ бота на базе искусственного интеллекта», — написал Майкл Труэлл, генеральный директор и соучредитель компании, в сообщении на Reddit.
Ложная информация вышла из-под контроля.
Спустя два года после запуска ChatGPT технологические компании, офисные работники и обычные потребители все чаще используют ботов на базе ИИ для решения различных задач.
Однако нет способа гарантировать точность информации, выдаваемой этими системами. Как ни парадоксально, самые мощные новые технологии, известные как системы «вывода» от таких компаний, как OpenAI, Google и DeepSeek, допускают всё больше ошибок.
![]() |
Бессмысленный диалог в ChatGPT, где пользователь спрашивает, можно ли собакам есть хлопья. Фото: Reddit. |
Хотя математические навыки значительно улучшились, способность больших языковых моделей (LLM) улавливать истину стала менее устойчивой. Удивительно, но даже сами инженеры совершенно не понимают, почему это происходит.
По данным New York Times , современные чат-боты на основе искусственного интеллекта используют сложные математические системы для обучения навыкам, анализируя огромные объёмы цифровых данных. Однако они не могут определить, что правильно, а что нет.
Отсюда возникает состояние «галлюцинации» или самопроизвольного создания информации. Более того, согласно исследованиям, последнее поколение LLM «галлюцинирует» даже чаще, чем некоторые более старые модели.
В частности, в последнем отчете OpenAI обнаружила, что модель o3 «галлюцинировала», отвечая на 33% вопросов PersonQA — внутреннего стандарта компании для измерения точности знаний модели о людях.
Для сравнения, это вдвое превышает частоту «галлюцинаций» у предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые страдали от этого в 16% и 14,8% соответственно. В то же время, модель o4-mini показала ещё худшие результаты на PersonQA, испытывая «галлюцинации» в 48% случаев.
Ещё более тревожно то, что «отец ChatGPT» на самом деле не знает, почему это происходит. В частности, в техническом отчёте по o3 и o4-mini OpenAI пишет, что «необходимы дальнейшие исследования, чтобы понять, почему эта „иллюзия“ усугубляется» по мере масштабирования моделей рассуждений.
Модели o3 и o4-mini показали лучшие результаты в некоторых областях, включая программирование и математические задачи. Однако, поскольку им требовалось «делать больше утверждений, чем обобщать», обе модели выдавали «больше верных утверждений, но и больше неверных».
«Это никогда не исчезнет».
Вместо строгого набора правил, разработанных инженерами-людьми, системы LLM используют математическую вероятность для определения наилучшего ответа. Поэтому они всегда допускают некоторую погрешность.
«Несмотря на все наши усилия, модели ИИ всегда будут иллюзорными. Это никогда не исчезнет», — сказал Амр Авадаллах, бывший руководитель Google.
![]() |
По данным IBM, галлюцинации — это явление, при котором большие языковые модели (LLM) — обычно чат-боты или инструменты компьютерного зрения — получают шаблоны данных, которые не существуют или не распознаются человеком, тем самым выдавая бессмысленные или вводящие в заблуждение результаты. Фото: iStock. |
В подробной статье об экспериментах представители OpenAI заявили, что необходимы дополнительные исследования, чтобы понять причины таких результатов.
По словам экспертов, поскольку системы искусственного интеллекта обучаются на гораздо больших объемах данных, чем может понять человек, может быть сложно определить, почему они ведут себя таким образом.
«Иллюзии изначально чаще встречаются в моделях вывода, хотя мы активно работаем над снижением их частоты в o3 и o4-mini. Мы продолжим работать над устранением иллюзий во всех моделях, чтобы повысить точность и надёжность», — заявила Габи Раила, представитель OpenAI.
Тесты, проведенные несколькими независимыми компаниями и исследователями, показывают, что частота галлюцинаций также увеличивается для моделей вывода таких компаний, как Google или DeepSeek.
С конца 2023 года компания Авадаллаха, Vectara, отслеживает, насколько часто чат-боты искажают информацию. Компания попросила системы выполнить простую и легко проверяемую задачу — резюмировать содержание конкретных новостных статей. Но даже в этом случае чат-боты продолжали фальсифицировать информацию.
В частности, первоначальное исследование Vectara показало, что в этом сценарии чат-боты фальсифицировали информацию как минимум в 3% случаев, а иногда и в 27%.
За последние полтора года такие компании, как OpenAI и Google, снизили эти показатели примерно до 1–2%. Другие, например, стартап из Сан-Франциско Anthropic, колеблются около 4%.
Однако частота галлюцинаций в этом тесте продолжала расти для систем вывода. Частота галлюцинаций увеличилась на 14,3% для системы вывода R1 DeepSeek, тогда как для системы вывода o3 OpenAI — на 6,8%.
Другая проблема заключается в том, что модели вывода предназначены для того, чтобы тратить время на «обдумывание» сложных проблем, прежде чем прийти к окончательному ответу.
![]() |
Apple добавила в первую тестовую версию macOS 15.1 предупреждение, запрещающее ИИ фальсифицировать информацию. Фото: Reddit/devanxd2000. |
Однако недостаток заключается в том, что, пытаясь решить задачу шаг за шагом, модель ИИ становится всё более подверженной галлюцинациям на каждом этапе. Что ещё важнее, ошибки могут накапливаться, поскольку модель тратит всё больше времени на размышления.
Новейшие боты показывают пользователям каждый шаг, а значит, они также могут видеть каждую ошибку. Исследователи также обнаружили, что во многих случаях ход мыслей, демонстрируемый чат-ботом, на самом деле не связан с его окончательным ответом.
«То, что система утверждает, что она делает выводы, не обязательно соответствует ее действительным мыслям», — говорит Арио Прадипта Хема, исследователь искусственного интеллекта из Эдинбургского университета и сотрудник Anthropic.
Источник: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Комментарий (0)