Две новые модели ChatGPT демонстрируют более высокую частоту генерации сфабрикованной информации по сравнению с предыдущим поколением. Фото: Fireflies . |
Всего через два дня после анонса GPT-4.1 компания OpenAI официально представила не одну, а две новые модели, получившие названия o3 и o4-mini. Обе модели демонстрируют превосходные возможности логического мышления и множество существенных улучшений.
Однако, по данным TechCrunch , эти две новые модели по-прежнему страдают от «галлюцинаций» или самообмана. Фактически, они демонстрируют больше галлюцинаций, чем некоторые из старых моделей OpenAI.
По данным IBM, галлюцинации — это феномен, при котором большие языковые модели (LLM) — часто это чат-боты или инструменты компьютерного зрения — получают данные о шаблонах, которые не существуют или не распознаются человеком, в результате чего получаются бессмысленные или неточные результаты.
Иными словами, пользователи часто ожидают от ИИ точных результатов, основанных на обученных данных. Однако в некоторых случаях результаты ИИ не соответствуют действительности, выдавая «ложный» ответ.
В своем последнем отчете компания OpenAI обнаружила, что модель o3 оказалась «иллюзорной» при ответе на 33% вопросов в PersonQA, внутреннем стандарте компании для измерения точности знаний модели о людях.
Для сравнения, этот показатель вдвое превышает частоту «иллюзий» у предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые составляли 16% и 14,8% соответственно. Между тем, модель O4-mini показала еще худшие результаты на PersonQA, испытывая «иллюзии» в течение 48% времени тестирования.
Что еще более тревожно, «отец ChatGPT» на самом деле не знает, почему это происходит. В частности, в своем техническом отчете по o3 и o4-mini компания OpenAI заявляет, что «необходимы дальнейшие исследования, чтобы понять, почему „галлюцинации“ усиливаются» при масштабировании моделей рассуждений.
Модели O3 и o4-mini показывают лучшие результаты в некоторых областях, включая программирование и математические задачи. Однако, поскольку им необходимо «делать больше утверждений, чем просто общих утверждений», обе модели приводят к «более точным, но и более неточным утверждениям».
Источник: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html







Комментарий (0)