Предупреждение о «галлюцинациях» ChatGPT

Две новые модели ChatGPT обладают более высокой частотой генерации информации, чем предыдущее поколение. Фото: Fireflies .

Всего через два дня после анонса GPT-4.1 компания OpenAI официально выпустила не одну, а сразу две новые модели: o3 и o4-mini. Обе модели демонстрируют превосходные возможности логического вывода и включают ряд важных улучшений.

Однако, по данным TechCrunch , эти две новые модели всё ещё страдают от «галлюцинаций» или фальсификации информации. Более того, они страдают от «галлюцинаций» даже больше, чем некоторые старые модели OpenAI.

По данным IBM, галлюцинации возникают, когда большая языковая модель (LLM) — обычно чат-бот или инструмент компьютерного зрения — получает шаблоны данных, которые не существуют или нераспознаваемы человеком, что приводит к бессмысленным или вводящим в заблуждение результатам.

Другими словами, пользователи часто просят ИИ выдавать точные результаты на основе данных для обучения. Однако в некоторых случаях результаты ИИ не основаны на точных данных, что приводит к «иллюзорным» ответам.

В своем последнем отчете OpenAI обнаружила, что o3 «галлюцинировал», отвечая на 33% вопросов PersonQA — внутреннего теста компании для измерения точности знаний модели о людях.

Для сравнения, это вдвое превышает частоту «галлюцинаций» предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые испытывали проблемы в 16% и 14,8% случаев соответственно. В то же время, модель O4-mini показала ещё худшие результаты в PersonQA, испытывая «галлюцинации» в 48% случаев.

Ещё более тревожно то, что «отец ChatGPT» на самом деле не знает, почему это происходит. В частности, в техническом отчёте по o3 и o4-mini OpenAI пишет, что «необходимы дальнейшие исследования, чтобы понять, почему эта „иллюзия“ усугубляется» по мере масштабирования моделей рассуждений.

Модели o3 и o4-mini показали лучшие результаты в некоторых областях, включая программирование и математические задачи. Однако, поскольку им требовалось «делать больше утверждений, чем обобщать», обе модели давали «больше верных, но и больше неверных утверждений».

Источник: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html

Комментарий (0)