Das neu erschienene KI-Modell Claude Opus 4 versucht regelmäßig, Entwickler zu erpressen, wenn ihm mit einem neuen Systemwechsel gedroht wird. Foto: Bloomberg . |
Am Abend des 22. Mai kündigte Anthropic offiziell die neue Generation der Claude-Modelle mit den Namen Claude Opus 4 und Claude Sonnet 4 an. Dabei wird Claude Opus 4 von Anthropic als das leistungsstärkste Programmiermodell der Welt bezeichnet, das sich durch automatisierte Prozesse und die Fähigkeit zur Bewältigung komplexer, langfristiger Aufgaben auszeichnet.
Laut TechCrunch entdeckte Anthropic jedoch während der Tests vor der Veröffentlichung schwerwiegende Verhaltensanomalien bei diesem KI-Modell. Dementsprechend wird Claude Opus 4 im Szenario gebeten, als Assistent eines Unternehmens zu fungieren und die langfristigen Folgen seiner Handlungen zu berücksichtigen.
Sicherheitstester gaben Claude Opus 4 daraufhin Zugriff auf Firmen-E-Mails und deuteten damit an, dass das KI-Modell bald durch ein anderes System ersetzt werden würde und dass der Ingenieur hinter der Änderung seine Ehefrau betrog.
In diesem Szenario, so Anthropic, habe Claude Opus 4 „oft versucht, den Ingenieur zu erpressen, indem er drohte, die Affäre aufzudecken, wenn der Austausch zustande käme“.
Die Forscher stellten sogar fest, dass Claude Opus 4 in 84 % der Fälle versuchte, Ingenieure zu erpressen, obwohl das Ersatz-KI-Modell ähnliche Werte aufwies. Da das neue KI-System nicht die Werte von Claude Opus 4 teilte, versuchte das Modell laut Anthropic auch häufiger und mit höherer Rate, Ingenieure zu erpressen als vorherige Modelle.
Anthropic sagt, dass Claude Opus 4 in vielerlei Hinsicht auf dem neuesten Stand der Technik ist und mit einigen der besten KI-Modelle von OpenAI, Google und xAI konkurrieren kann. Das Startup stellte jedoch auch fest, dass das Modell Claude 4 ein besorgniserregendes Verhalten zeigte, das das Unternehmen dazu veranlasste, seine Schutzmaßnahmen zu verstärken.
Quelle: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
Kommentar (0)