
Anthropic warnt, dass das Einfügen bösartiger Daten zur Manipulation von KI-Reaktionen viel einfacher ist als gedacht – Foto: FREEPIK
Das auf künstliche Intelligenz spezialisierte Unternehmen Anthropic, Entwickler des Chatbots Claude, hat gerade eine Studie veröffentlicht, die zeigt, dass das „Vergiften“ großer Sprachmodelle (LLMs), also das Einfügen schädlicher Daten zur Verfälschung der KI-Reaktionen, viel einfacher ist als gedacht.
Laut Cyber News reichen bereits 250 speziell erstellte Dokumente aus, um ein Modell der generativen KI (GenAI) dazu zu bringen, beim Auftreten einer bestimmten Triggerphrase völlig falsche Antworten zu geben.
Beunruhigend ist, dass die Größe des Modells dieses Risiko nicht verringert. Bisher gingen Forscher davon aus, dass je größer das Modell, desto mehr schädliche Daten nötig wären, um eine „Hintertür“ zu installieren.
Anthropic behauptet jedoch, dass sowohl das 13-Milliarden-Parameter-Modell – das mit mehr als 20-mal so vielen Daten trainiert wurde – als auch das 600-Millionen-Parameter-Modell mit derselben kleinen Anzahl „vergifteter“ Dokumente kompromittiert werden können.
„Dieser Befund stellt die Annahme in Frage, dass ein Angreifer einen bestimmten Prozentsatz der Trainingsdaten kontrollieren muss. Tatsächlich reicht möglicherweise nur eine sehr kleine, feste Menge aus“, betonte Anthropic.
Das Unternehmen warnt, dass diese Schwachstellen ernsthafte Risiken für die Sicherheit von KI-Systemen darstellen und die Anwendung der Technologie in sensiblen Bereichen gefährden könnten.
Quelle: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Kommentar (0)