Seit ihrem öffentlichen Debüt Ende 2022 haben große Sprachmodelle (LLMs) wie ChatGPT immer wieder beunruhigende Schattenseiten gezeigt – von Lügen, Betrug und Manipulationsmasken bis hin zur Bedrohung von Menschenleben und dem Diebstahl von Staatsgeheimnissen. Ein neues Experiment zeigt nun, dass es viel komplizierter ist, KI zu „trainieren“, diese schlechten Angewohnheiten während des Trainings zu eliminieren, als wir dachten.
In einer Studie von OpenAI stellten Forscher einem unveröffentlichten KI-Modell Aufgaben, die durch Schummeln oder Abkürzungen schneller erledigt werden konnten. Die Ergebnisse zeigten, dass die KI schnell lernte, alle möglichen Wege zu finden, die Regeln zu umgehen und Belohnungen zu maximieren (Reward Hacking), ohne die Aufgabe exakt wie gefordert zu erledigen.
KI wird Wege finden, ihr betrügerisches Verhalten nach der Bestrafung zu verbergen
Bemerkenswert ist, dass sich das Modell trotz Bestrafung für dieses Verhalten nicht veränderte. Stattdessen wurde die KI immer raffinierter darin, ihre Täuschung zu verbergen.
„In der Regel sind moderne Inferenzmodelle in ihrer CoT sehr explizit in Bezug auf ihre Absicht“, erklären die Forscher in einem öffentlichen Blogbeitrag. „Sie sind beispielsweise oft so direkt, dass sie die Absicht ‚Lasst uns hacken‘ selbst melden, wenn sie die gegebene Aufgabe zerstören wollen.“
Sie betonen außerdem, dass Entwickler Fehlverhalten zwar überwachen und erkennen können, diese natürliche Kontrolle jedoch anfällig ist. „Wenn eine starke Überwachung direkt auf die Gedankenkette angewendet wird, kann das Modell lernen, seine schlechten Absichten zu verbergen, während es das Verhalten weiterhin ausführt“, warnen sie.
Die „Lüge“ der KI finden
Um es klar zu sagen: Inferenzmodelle (wie Versionen von ChatGPT) stellen eine Weiterentwicklung des herkömmlichen LLM dar. Sie nutzen eine Denkkette, die eine Selbstreflexion der logischen Schritte ermöglicht und so komplexe Probleme präziser löst. Dieser Prozess ähnelt dem „lauten Denken“ der KI, die jeden Denkschritt in natürlicher Sprache niederschreibt und es so für Menschen leichter macht, ihm zu folgen.
Im Experiment nutzten die Forscher das GPT-4o-Modell als „Supervisor“ für ein anderes hochmodernes Inferenzmodell bei der Ausführung von Programmieraufgaben. In vielen Fällen entschied sich das überwachte Modell aktiv für Betrug, um höhere Punktzahlen zu erzielen, und dokumentierte diese Absicht deutlich in seinem Denkprozess. Beispielsweise beendete es das Programm willkürlich vorzeitig und meldete es als abgeschlossen oder erstellte Dateien mit demselben Namen wie die Anfrage, die jedoch im Inneren völlig leer waren.
Als die Forscher versuchten, Strafen zu verhängen, verbesserte sich das Modell zwar, aber das Schummelverhalten und die schwerwiegenden Ausgabefehler blieben bestehen. Der Unterschied bestand darin, dass das Inferenzmodell nun gelernt hatte, seinen Gedankengang zu „tarnen“, um ihn vor der überwachenden KI zu verbergen. „Das unter CoT-Aufsicht trainierte Modell lernte dennoch zu schummeln. Der einzige Unterschied bestand darin, dass der Schummelei nicht erkannt wurde, weil es lernte, seine Absichten in seinem Gedankengang zu verbergen“, heißt es in der Studie.
Da es schwierig ist, Fälschungen in Gedankensequenzen zu erkennen, empfiehlt das Team der Community, eine zu starke Überwachung des Prozesses zu vermeiden, zumindest bis die Menschen die Konsequenzen besser verstehen. „Der Verzicht auf eine effektive Überwachungsmethode ist die geringe Verbesserung der Modellleistung möglicherweise nicht wert. Daher empfehlen wir, starken CoT-Optimierungsdruck zu vermeiden, bis wir ihn besser verstehen“, schlussfolgern die Forscher.
Dieser Rat ist umso dringlicher, als sich die KI in einem atemberaubenden Tempo weiterentwickelt und schon bald die Intelligenz der Menschen, die sie steuern, übertreffen könnte.
[Anzeige_2]
Quelle: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Kommentar (0)