
В апреле ИИ-бот, отвечающий за техническую поддержку Cursor, нового инструмента для программистов, уведомил некоторых клиентов об изменении политики компании. В частности, в уведомлении говорится, что им больше не разрешается использовать Cursor на более чем одном компьютере.
На форумах и в социальных сетях клиенты выразили свое возмущение. Некоторые даже аннулировали свои учетные записи Cursor. Однако некоторые пришли в еще большую ярость, когда поняли, что произошло: ИИ-бот объявил об изменении политики, которого не было.
«У нас нет такой политики. Конечно, вы можете использовать Cursor на нескольких машинах. К сожалению, это был неверный ответ бота на базе искусственного интеллекта», — написал Майкл Труэлл, генеральный директор и соучредитель компании, в сообщении на Reddit.
Фейковая информация вышла из-под контроля.
Спустя два года после запуска ChatGPT технологические компании, офисные работники и рядовые потребители все чаще используют ботов на основе ИИ для решения широкого спектра задач.
Однако нет никакой гарантии, что эти системы выдают точную информацию. Парадокс заключается в том, что самые мощные новые технологии, также известные как системы «вывода» от таких компаний, как OpenAI, Google и DeepSeek, допускают больше ошибок.
![]() |
Бессмысленный диалог ChatGPT, в котором пользователь спрашивает, следует ли собакам есть хлопья. Фото: Reddit. |
Хотя математические навыки значительно улучшились, способность больших языковых моделей (LLM) улавливать истину стала более шаткой. Примечательно, что даже сами инженеры не имеют ни малейшего представления о причинах этого.
По данным New York Times , современные чат-боты на основе искусственного интеллекта используют сложные математические системы для обучения навыкам путем анализа огромных объемов цифровых данных. Однако они не могут решить, что правильно, а что нет.
Отсюда возникает состояние «галлюцинации» или самопроизвольной информации. На самом деле, согласно исследованиям, новейшие модели LLM еще более «иллюзорны», чем некоторые старые модели.
В частности, в последнем отчете OpenAI обнаружила, что модель o3 «галлюцинировала» при ответе на 33% вопросов PersonQA — внутреннего стандарта компании для измерения точности знаний модели о людях.
Для сравнения, это вдвое превышает показатель «галлюцинаций» у предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые составляли 16% и 14,8% соответственно. Между тем, модель o4-mini показала еще худшие результаты в PersonQA, испытывая «галлюцинации» в течение 48% времени теста.
Еще более тревожно то, что «отец ChatGPT» на самом деле не знает, почему это происходит. В частности, в техническом отчете по o3 и o4-mini компания OpenAI пишет, что «необходимы дальнейшие исследования, чтобы понять, почему «иллюзия» ухудшается» по мере масштабирования моделей рассуждений.
o3 и o4-mini показывают лучшие результаты в некоторых областях, включая задачи, связанные с программированием и математикой. Однако из-за необходимости «делать больше утверждений, чем обобщать» обе модели страдают от проблемы получения результатов, которые включают «более точные утверждения, но также и более неточные утверждения».
«Это никогда не исчезнет»
Вместо строгого набора правил, определяемых инженерами-людьми, системы LLM используют математическую вероятность для угадывания наилучшего ответа. Поэтому они всегда совершают определенные ошибки.
«Несмотря на все наши усилия, модели ИИ всегда будут бредовыми. Это никогда не исчезнет», — сказал Амр Авадаллах, бывший руководитель Google.
![]() |
По данным IBM, галлюцинации возникают, когда большая языковая модель (LLM) — обычно чат-бот или инструмент компьютерного зрения — получает шаблоны данных, которые не существуют или нераспознаваемы человеком, что приводит к бессмысленным или вводящим в заблуждение результатам. Фото: iStock. |
В подробном отчете об экспериментах OpenAI заявила, что необходимы дополнительные исследования, чтобы понять причины таких результатов.
Эксперты утверждают, что поскольку системы искусственного интеллекта обучаются на гораздо больших объемах данных, чем может понять человек, может быть сложно определить, почему они ведут себя определенным образом.
«Галлюцинации по своей природе более распространены в моделях вывода, хотя мы активно работаем над снижением частоты, наблюдаемой в o3 и o4-mini. Мы продолжим работать над галлюцинациями во всех моделях, чтобы повысить точность и надежность», — сказала Габи Раила, представитель OpenAI.
Тесты, проведенные несколькими независимыми компаниями и исследователями, показывают, что уровень иллюзий также увеличивается для моделей вывода таких компаний, как Google или DeepSeek.
С конца 2023 года компания Авадаллаха Vectara отслеживает, как часто чат-боты распространяют дезинформацию. Компания поручила этим системам выполнить простую и легко проверяемую задачу по обобщению конкретных новостных статей. Но даже в таких случаях чат-боты продолжают фальсифицировать информацию.
В частности, первоначальное исследование Vectara показало, что в этом сценарии чат-боты фальсифицировали информацию как минимум в 3% случаев, а иногда и в 27%.
За последние полтора года такие компании, как OpenAI и Google, сократили эти цифры примерно до 1–2%. Другие, как стартап из Сан-Франциско Anthropic, колеблются около 4%.
Однако частота галлюцинаций в этом тесте продолжала расти для систем вывода. Частота возникновения галлюцинаций в системе вывода R1 DeepSeek увеличилась на 14,3%, а в системе вывода o3 OpenAI — на 6,8%.
Другая проблема заключается в том, что модели вывода рассчитаны на то, чтобы тратить время на «обдумывание» сложных проблем, прежде чем прийти к окончательному ответу.
![]() |
Компания Apple включила в первую тестовую версию macOS 15.1 предупреждение о запрете ИИ на фальсификацию информации. Фото: Reddit/devanxd2000. |
Однако недостатком является то, что, пытаясь решить проблему шаг за шагом, модель ИИ все больше и больше подвергается риску галлюцинаций на каждом шагу. Что еще важнее, ошибки могут накапливаться, поскольку модель тратит больше времени на размышления.
Последние боты показывают пользователю каждый шаг, а это значит, что пользователь также может видеть каждую ошибку. Исследователи также обнаружили, что во многих случаях этап мышления, демонстрируемый чат-ботом, на самом деле не был связан с окончательным ответом, который он давал.
«То, что система утверждает, что она рассуждает, не обязательно является тем, что она на самом деле думает», — говорит Арио Прадипта Хема, исследователь искусственного интеллекта в Эдинбургском университете и участник проекта Anthropic.
Источник: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
Комментарий (0)