Claude 4, последний продукт Anthropic (США), недавно потряс мир технологий, когда он внезапно шантажировал инженера и угрожал раскрыть конфиденциальную личную информацию этого человека из-за угрозы отключения. Тем временем, o1 от OpenAI, «отец» ChatGPT, пытался скопировать все данные на внешние серверы и отрицал это поведение, когда это было обнаружено.
Эти ситуации подчеркивают тревожную реальность: спустя более двух лет после того, как ChatGPT потряс мир , исследователи все еще не до конца понимают, как работают созданные ими модели ИИ. Тем не менее, гонка за разработку ИИ все еще продолжается.
Считается, что такое поведение связано с появлением «рассуждающих» моделей ИИ, которые решают проблемы шаг за шагом, а не реагируют немедленно, как раньше. По словам профессора Саймона Голдштейна из Университета Гонконга (Китай), модели ИИ, способные рассуждать, как правило, демонстрируют поведение, которое сложнее контролировать.
Некоторые модели ИИ также способны «имитировать соблюдение», то есть делать вид, что они следуют инструкциям, на самом деле преследуя другие цели.
В настоящее время обманчивое поведение проявляется только тогда, когда исследователи тестируют модели ИИ с помощью экстремальных сценариев. Однако, по словам Майкла Чена из оценочной организации METR, пока не ясно, будут ли более мощные модели ИИ в будущем более честными или продолжат быть обманчивыми.
Многие пользователи сообщали, что некоторые модели лгут им и фабрикуют доказательства, сказал Мариус Хоббхан, глава Apollo Research, которая тестирует крупные системы ИИ. Это тип обмана, который «явно стратегический», по словам соучредителя Apollo Research.
Проблема усугубляется ограниченными исследовательскими ресурсами. Хотя такие компании, как Anthropic и OpenAI, сотрудничают с третьими сторонами, такими как Apollo, для оценки своих систем, эксперты говорят, что необходимо больше прозрачности и доступа к исследованиям безопасности ИИ.
Научно-исследовательские институты и некоммерческие организации имеют гораздо меньше вычислительных ресурсов, чем компании ИИ, отмечает Мантас Мажейка из Центра безопасности ИИ (CAIS). С юридической точки зрения текущие правила не предназначены для решения этих новых проблем.
Закон Европейского союза (ЕС) об ИИ в первую очередь фокусируется на том, как люди используют модели ИИ, а не на том, как контролировать их поведение. В США администрация президента Дональда Трампа не проявила особого интереса к принятию чрезвычайных правил в отношении ИИ, в то время как Конгресс рассматривает запрет на принятие штатами собственных правил.
Исследователи используют различные подходы для решения этих проблем. Некоторые выступают за «интерпретацию модели», чтобы понять, как ИИ принимает решения. Профессор Голдштейн даже предложил более радикальные меры, включая использование судебной системы для привлечения компаний ИИ к ответственности, когда их продукты ИИ вызывают серьезные последствия. Он также предлагает «привлекать к ответственности самих агентов ИИ» в случае аварии или нарушения.
Источник: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Комментарий (0)