
Anthropic warnt davor, dass das Einschleusen von Schaddaten zur Verfälschung von KI-Reaktionen viel einfacher ist als angenommen – Foto: FREEPIK
Das KI-Unternehmen Anthropic, Entwickler des Chatbots Claude, hat soeben Forschungsergebnisse veröffentlicht, die zeigen, dass das „Vergiften“ großer Sprachmodelle (LLMs), also das Einfügen bösartiger Daten zur Verzerrung von KI-Antworten, viel einfacher ist als gedacht.
Laut Cyber News reichen bereits 250 speziell präparierte Dokumente aus, um ein generatives KI-Modell (GenAI) dazu zu bringen, bei Auftreten einer bestimmten Auslösephrase völlig falsche Antworten zu geben.
Besorgniserregend ist, dass die Größe des Modells dieses Risiko nicht verringert. Bisher gingen Forscher davon aus, dass je größer das Modell, desto mehr schädliche Daten zum Einbau einer Hintertür benötigt würden.
Anthropic behauptet jedoch, dass sowohl das 13 Milliarden Parameter umfassende Modell – das mit mehr als 20-mal so vielen Daten trainiert wurde – als auch das 600 Millionen Parameter umfassende Modell bereits mit der gleichen geringen Anzahl „vergifteter“ Dokumente kompromittiert werden können.
„Diese Erkenntnis stellt die Annahme in Frage, dass ein Angreifer einen bestimmten Prozentsatz der Trainingsdaten kontrollieren muss. Tatsächlich benötigt er möglicherweise nur eine sehr kleine, feste Menge“, betonte Anthropic.
Das Unternehmen warnt davor, dass diese Schwachstellen ein ernsthaftes Risiko für die Sicherheit von KI-Systemen darstellen und den Einsatz der Technologie in sensiblen Bereichen gefährden könnten.
Quelle: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm






Kommentar (0)