Антропный: даже небольшого количества данных достаточно, чтобы «отравить» гигантские модели ИИ

Новое исследование компании Claude, занимающейся разработкой чат-ботов, показывает, что даже крупные языковые модели с десятками миллиардов параметров могут быть «отравлены» всего лишь небольшим объемом данных.

Báo Tuổi Trẻ•13/10/2025

Anthropic: Chỉ lượng tài liệu nhỏ cũng đủ 'đầu độc' mô hình AI khổng lồ - Ảnh 1. — Anthropic предупреждает, что внедрение вредоносных данных для искажения ответов ИИ гораздо проще, чем предполагалось — Фото: FREEPIK

Компания Anthropic, занимающаяся разработкой искусственного интеллекта и разработчиком чат-бота Claude, только что опубликовала исследование, показывающее, что «отравление» больших языковых моделей (LLM), то есть вставка вредоносных данных для искажения ответов ИИ, гораздо проще, чем предполагалось.

По данным Cyber News, достаточно всего 250 специально созданных документов, чтобы модель генеративного искусственного интеллекта (GenAI) выдавала совершенно неверные ответы при столкновении с определенной триггерной фразой.

Тревожно, что размер модели не снижает этот риск. Ранее исследователи считали, что чем больше модель, тем больше вредоносных данных потребуется для установки «бэкдора».

Однако Anthropic утверждает, что и модель с 13 миллиардами параметров, обученная на более чем в 20 раз большем объеме данных, и модель с 600 миллионами параметров могут быть скомпрометированы одним и тем же небольшим количеством «отравленных» документов.

«Это открытие ставит под сомнение предположение о том, что злоумышленник должен контролировать определённый процент обучающих данных. На самом деле, ему может понадобиться лишь очень небольшой фиксированный объём», — подчеркнул Антропик.

Компания предупреждает, что эти уязвимости могут представлять серьезную угрозу безопасности систем ИИ и поставить под угрозу применение этой технологии в чувствительных областях.

Вернуться к теме

КХАНЬ КУИНЬ

Источник: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm