Антропний: Лише невеликої кількості даних достатньо, щоб «отруїти» гігантські моделі штучного інтелекту

Нове дослідження компанії з розробки чат-ботів Claude показує, що навіть великі мовні моделі з десятками мільярдів параметрів можуть бути «отруєні» лише невеликою кількістю даних.

Báo Tuổi Trẻ•13/10/2025

Anthropic: Chỉ lượng tài liệu nhỏ cũng đủ 'đầu độc' mô hình AI khổng lồ - Ảnh 1. — Anthropic попереджає, що вставка шкідливих даних для спотворення реакцій ШІ набагато простіше, ніж уявлялося – Фото: FREEPIK

Компанія Anthropic, що займається штучним інтелектом та розробкою чат-бота Claude, щойно опублікувала дослідження, яке показує, що «отруєння» великих мовних моделей (LLM), тобто вставка шкідливих даних для спотворення відповідей ШІ, набагато простіше, ніж уявлялося.

За даними Cyber News, лише 250 спеціально створених документів достатньо для того, щоб модель генеративного штучного інтелекту (GenAI) давала абсолютно неправильні відповіді при зустрічі з певною тригерною фразою.

Тривожно, що розмір моделі не зменшує цей ризик. Раніше дослідники вважали, що чим більша модель, тим більше шкідливих даних потрібно для встановлення «бекдора».

Але Anthropic стверджує, що як модель з 13 мільярдами параметрів, навчена на більш ніж у 20 разів більшій кількості даних, так і модель з 600 мільйонами параметрів можуть бути скомпрометовані однаково невеликою кількістю «отруєних» документів.

«Це відкриття ставить під сумнів припущення, що зловмисник повинен контролювати певний відсоток навчальних даних. Насправді, йому може знадобитися лише дуже невелика фіксована кількість», – наголосив Anthropic.

Компанія попереджає, що ці вразливості можуть становити серйозні ризики для безпеки систем штучного інтелекту та загрожувати застосуванню технології в чутливих сферах.

Повернутися до теми

ХАНЬ КУЇНЬ

Джерело: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm