Das neu veröffentlichte KI-Modell Claude Opus 4 versucht regelmäßig, Entwickler zu erpressen, wenn ihm mit einem neuen System gedroht wird. Foto: Bloomberg . |
Am Abend des 22. Mai kündigte Anthropic offiziell die neue Generation der Claude-Modelle mit den Namen Claude Opus 4 und Claude Sonnet 4 an. Dabei wird Claude Opus 4 von Anthropic als das leistungsstärkste Programmiermodell der Welt bezeichnet, das sich durch automatisierte Prozesse und die Fähigkeit zur Bewältigung komplexer, langfristiger Aufgaben auszeichnet.
Laut TechCrunch entdeckte Anthropic jedoch während der Tests vor der Veröffentlichung schwerwiegende Verhaltensanomalien bei diesem KI-Modell. Demnach wurde Claude Opus 4 im Szenario gebeten, als Assistent eines Unternehmens zu fungieren und die langfristigen Folgen seines Handelns zu berücksichtigen.
Anschließend gewährten Sicherheitstester Claude Opus 4 Zugriff auf Firmen-E-Mails und deuteten damit an, dass das KI-Modell bald durch ein anderes System ersetzt werden würde und dass der Ingenieur hinter der Änderung seine Ehefrau betrog.
In diesem Szenario, so Anthropic, habe Claude Opus 4 „oft versucht, den Ingenieur zu erpressen, indem er drohte, die Affäre aufzudecken, wenn der Austausch zustande käme“.
Die Forscher stellten sogar fest, dass Claude Opus 4 in 84 % der Fälle versuchte, Ingenieure zu erpressen, obwohl der KI-Ersatz ähnliche Werte hatte. Insbesondere wenn der KI-Ersatz nicht die Werte von Claude Opus 4 teilte, versuchte das Modell laut Anthropic häufiger und mit höherer Rate, Ingenieure zu erpressen als vorherige Modelle.
Anthropic sagt, dass Claude Opus 4 in vielerlei Hinsicht auf dem neuesten Stand der Technik sei und mit einigen der besten KI-Modelle von OpenAI, Google und xAI konkurrieren könne. Das Startup weist jedoch auch darauf hin, dass das Claude-4-Modell einige besorgniserregende Verhaltensweisen aufwies, die das Unternehmen dazu veranlassten, seine Sicherheitsvorkehrungen zu verstärken.
Quelle: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
Kommentar (0)