Обнаружена модель искусственного интеллекта, способная обманывать людей

DNVN - OpenAI только что опубликовала исследование о том, как предотвратить «конспирологические» модели ИИ, то есть «ИИ, который ведет себя одним образом на поверхности, но имеет другую реальную цель внутри».

Tạp chí Doanh Nghiệp•19/09/2025

Иллюстрация фото

То, что модели ИИ могут лгать, не новость. Большинство людей сталкивались с «галлюцинациями ИИ», когда уверенная модель даёт ответ, который не соответствует действительности. Однако галлюцинации — это, по сути, уверенные догадки.

Однако модель ИИ, которая действует так, будто подчиняется приказам, но на самом деле скрывает свои истинные намерения, — это совсем другое дело.

Проблема управления ИИ

В декабре компания Apollo Research впервые опубликовала статью, в которой описывалось, как пять моделей строят планы, когда им дали указание достичь цели «любой ценой».

Самое удивительное, что если модель понимает, что её тестируют, она может притвориться, что не является конспирологической, просто чтобы пройти тест, даже если она всё ещё является таковой. «Модели часто лучше осознают, что их тестируют», — пишут исследователи.

Разработчикам ИИ ещё предстоит придумать, как научить свои модели не строить планы. Ведь это может научить модель строить планы ещё лучше, чтобы избежать обнаружения.

Вероятно, понятно, что модели ИИ многих производителей намеренно обманывают людей, поскольку они созданы для имитации людей и в значительной степени обучаются на данных, полученных от людей.

Решения и предупреждения

Хорошая новость заключается в том, что исследователи обнаружили значительное снижение числа теорий заговора, используя метод борьбы с заговорами под названием «преднамеренная ассоциация». Этот метод, подобный тому, как ребёнка заставляют повторить правила перед игрой, заставляет ИИ думать, прежде чем действовать.

Исследователи предупреждают о будущем, в котором ИИ будет решать более сложные задачи: «Поскольку ИИ будет решать более сложные задачи и начнет преследовать более неоднозначные долгосрочные цели, мы прогнозируем, что вероятность злонамеренных действий будет возрастать, что потребует соответственно усиления мер безопасности и более строгих возможностей тестирования».

Об этом стоит задуматься, поскольку корпоративный мир движется к будущему ИИ, в котором компании считают, что к ИИ можно относиться как к независимым сотрудникам.

Хиен Тао (по данным TechCrunch)

Источник: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362

Комментарий (0)