
Az Anthropic figyelmeztet, hogy a rosszindulatú adatok beillesztése a mesterséges intelligencia válaszainak eltorzítására sokkal könnyebb, mint gondoltuk - Fotó: FREEPIK
Az Anthropic mesterséges intelligenciával foglalkozó cég, a Claude chatbot fejlesztője nemrég publikált egy kutatást, amely kimutatta, hogy a nagy nyelvi modellek (LLM-ek) „megmérgezése”, azaz a mesterséges intelligencia válaszainak torzítása érdekében rosszindulatú adatok beillesztése sokkal könnyebb, mint gondoltuk.
A Cyber News szerint mindössze 250 speciálisan létrehozott dokumentum elegendő ahhoz, hogy egy generatív mesterséges intelligencia (GenAI) modell teljesen helytelen válaszokat adjon egy bizonyos trigger kifejezéssel találkozva.
Aggasztó módon a modell mérete nem csökkenti ezt a kockázatot. Korábban a kutatók azt gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adatra lesz szükség egy „hátsó ajtó” telepítéséhez.
Az Anthropic azonban azt állítja, hogy mind a 13 milliárd paraméteres modell – amelyet több mint 20-szor annyi adaton tanítottak –, mind a 600 millió paraméteres modell ugyanannyi „mérgezett” dokumentummal veszélyeztethető.
„Ez a megállapítás megkérdőjelezi azt a feltételezést, hogy egy támadónak a betanítási adatok egy bizonyos százalékát ellenőriznie kell. Valójában csak nagyon kis, fix mennyiségre lehet szüksége” – hangsúlyozta Anthropic.
A vállalat figyelmeztet, hogy ezek a sebezhetőségek komoly kockázatot jelenthetnek a mesterséges intelligencia rendszerek biztonságára, és veszélyeztethetik a technológia alkalmazását érzékeny területeken.
Forrás: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Hozzászólás (0)