
Anthropic предупреждает, что внедрение вредоносных данных для искажения ответов ИИ гораздо проще, чем предполагалось — Фото: FREEPIK
Компания Anthropic, занимающаяся разработкой искусственного интеллекта и разработчиком чат-бота Claude, только что опубликовала исследование, показывающее, что «отравление» больших языковых моделей (LLM), то есть вставка вредоносных данных для искажения ответов ИИ, гораздо проще, чем предполагалось.
По данным Cyber News, достаточно всего 250 специально созданных документов, чтобы модель генеративного искусственного интеллекта (GenAI) начала выдавать совершенно неверные ответы при столкновении с определенной триггерной фразой.
Тревожно, что размер модели не снижает этот риск. Ранее исследователи считали, что чем больше модель, тем больше вредоносных данных потребуется для установки «бэкдора».
Однако Anthropic утверждает, что и модель с 13 миллиардами параметров, обученная на более чем в 20 раз большем объеме данных, и модель с 600 миллионами параметров могут быть скомпрометированы одним и тем же небольшим количеством «отравленных» документов.
«Это открытие ставит под сомнение предположение о том, что злоумышленник должен контролировать определённый процент обучающих данных. На самом деле, ему может понадобиться лишь очень небольшой фиксированный объём», — подчеркнул Антропик.
Компания предупреждает, что эти уязвимости могут представлять серьезную угрозу безопасности систем ИИ и поставить под угрозу применение этой технологии в чувствительных областях.
Источник: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Комментарий (0)