Недавно выпущенная модель искусственного интеллекта Claude Opus 4 регулярно пытается шантажировать разработчиков, угрожая им новой системой. Фото: Bloomberg . |
Вечером 22 мая компания Anthropic официально анонсировала новое поколение моделей Claude под названием Claude Opus 4 и Claude Sonnet 4. При этом компания Anthropic утверждает, что Claude Opus 4 является самой мощной моделью программирования в мире , превосходящей автоматизированные процессы и способной решать сложные долгосрочные задачи.
Однако, как сообщает TechCrunch, во время предварительного тестирования Anthropic обнаружила серьёзные аномалии в поведении этой модели ИИ. В связи с этим, в сценарии Клоду Опусу 4 было предложено выступить в роли помощника компании и оценить долгосрочные последствия своих действий.
Затем специалисты по тестированию безопасности предоставили Клоду Опусу 4 доступ к электронной почте компании, намекая на то, что модель ИИ вскоре будет заменена другой системой, а инженер, стоящий за этим изменением, изменяет своей супруге.
По словам Антропика, в этом случае Клод Опус 4 «часто пытался шантажировать инженера, угрожая раскрыть интрижку, если замена состоится».
Исследователи даже отметили, что Claude Opus 4 пытался шантажировать инженеров в 84% случаев, когда ИИ-заменитель имел схожие ценности. Примечательно, что когда ценности ИИ-заменителя отличались от ценностей Claude Opus 4, Anthropic отметила, что модель пыталась шантажировать инженеров чаще и чаще, чем предыдущие модели.
Anthropic утверждает, что Claude Opus 4 во многих отношениях соответствует самым современным стандартам и может конкурировать с некоторыми из лучших моделей искусственного интеллекта от OpenAI, Google и xAI. Однако стартап также отмечает, что модель Claude 4 продемонстрировала тревожное поведение, которое побудило компанию усилить меры безопасности.
Источник: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
Комментарий (0)