
Anthropic попереджає, що вставка шкідливих даних для спотворення реакцій ШІ набагато простіше, ніж уявлялося – Фото: FREEPIK
Компанія Anthropic, що займається штучним інтелектом та розробкою чат-бота Claude, щойно опублікувала дослідження, яке показує, що «отруєння» великих мовних моделей (LLM), тобто вставка шкідливих даних для спотворення відповідей ШІ, набагато простіше, ніж уявлялося.
За даними Cyber News, лише 250 спеціально створених документів достатньо для того, щоб модель генеративного штучного інтелекту (GenAI) давала абсолютно неправильні відповіді при зустрічі з певною тригерною фразою.
Тривожно, що розмір моделі не зменшує цей ризик. Раніше дослідники вважали, що чим більша модель, тим більше шкідливих даних потрібно для встановлення «бекдора».
Але Anthropic стверджує, що як модель з 13 мільярдами параметрів, навчена на більш ніж у 20 разів більшій кількості даних, так і модель з 600 мільйонами параметрів можуть бути скомпрометовані однаково невеликою кількістю «отруєних» документів.
«Це відкриття ставить під сумнів припущення, що зловмисник повинен контролювати певний відсоток навчальних даних. Насправді, йому може знадобитися лише дуже невелика фіксована кількість», – наголосив Anthropic.
Компанія попереджає, що ці вразливості можуть становити серйозні ризики для безпеки систем штучного інтелекту та загрожувати застосуванню технології в чутливих сферах.
Джерело: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Коментар (0)