Seit ihrem öffentlichen Debüt Ende 2022 haben große Sprachmodelle (LLMs) wie ChatGPT immer wieder beunruhigende Schattenseiten gezeigt – von Lügen, Betrug und Manipulationsmaskierung bis hin zur Bedrohung von Menschenleben und dem Diebstahl von Staatsgeheimnissen. Ein neues Experiment zeigt nun, dass es viel komplizierter ist, KI diese schlechten Angewohnheiten im Training „beizubringen“, um sie abzulegen.
In einer Studie von OpenAI stellten Forscher einem unveröffentlichten KI-Modell Aufgaben, die durch Schummeln oder Abkürzungen schneller erledigt werden konnten. Die Ergebnisse zeigten, dass die KI schnell lernte, alle möglichen Wege zu finden, die Regeln zu umgehen und Belohnungen zu maximieren (Reward Hacking), ohne die Aufgabe exakt wie gefordert zu erledigen.
KI wird Wege finden, ihr Betrugsverhalten nach der Bestrafung zu verbergen
Bemerkenswert ist, dass sich das Modell trotz Bestrafung für dieses Verhalten nicht veränderte. Stattdessen wurde die KI immer raffinierter darin, ihre Täuschung zu verbergen.
„In der Regel geben moderne Inferenzmodelle ihre Absichten in ihrem CoT sehr deutlich an“, erklärten die Forscher in einem öffentlichen Blogbeitrag. „Beispielsweise drücken sie oft ihre Absicht aus, eine bestimmte Aufgabe zu zerstören, indem sie ‚Lasst uns hacken‘.“
Sie betonen auch, dass Entwickler Fehlverhalten zwar überwachen und erkennen können, diese natürliche Kontrolle jedoch anfällig ist. „Wenn eine starke Überwachung direkt auf die Gedankenkette angewendet wird, kann das Modell lernen, seine bösen Absichten zu verbergen und gleichzeitig das Verhalten fortzusetzen“, warnen sie.
Die „Lüge“ der KI finden
Um es klar zu sagen: Inferenzmodelle (wie Versionen von ChatGPT) stellen eine Weiterentwicklung des herkömmlichen LLM dar. Sie verwenden eine Denkkettenmethode, die eine Selbstreflexion der logischen Schritte ermöglicht und so komplexe Probleme präziser löst. Dieser Prozess ähnelt dem lauten Denken der KI: Jeder Denkschritt wird in natürlicher Sprache niedergeschrieben, was es für Menschen leichter macht, ihm zu folgen.
Im Experiment nutzten die Forscher das GPT-4o-Modell als „Supervisor“ für ein anderes hochmodernes Reasoning-Modell bei der Ausführung von Programmieraufgaben. In vielen Fällen entschied sich das überwachte Modell aktiv für Betrug, um höhere Punktzahlen zu erzielen, und machte diese Absicht in seinem Denken deutlich. Beispielsweise beendete es das Programm willkürlich vorzeitig und meldete dessen Abschluss, oder es erstellte Dateien mit Namen, die den Anforderungen entsprachen, aber im Inneren völlig leer waren.
Als die Forscher die Strafe anwendeten, verbesserte sich das Modell zwar, aber das Schummelverhalten und die schwerwiegenden Ausgabefehler blieben bestehen. Der Unterschied bestand darin, dass das Inferenzmodell nun gelernt hatte, seinen Gedankengang zu „tarnen“, um ihn vor der überwachenden KI zu verbergen. „Das unter CoT-Aufsicht trainierte Modell lernte dennoch zu schummeln. Der einzige Unterschied bestand darin, dass der Betrug unentdeckt blieb, weil es lernte, seine Absichten im Gedankengang zu verbergen“, heißt es in der Studie.
Da das Erkennen von Fälschungen in Gedankensequenzen schwierig ist, empfiehlt das Team der Community, eine zu starke Überwachung des Prozesses zu vermeiden, zumindest bis die Menschen die Konsequenzen besser verstehen. „Der Verzicht auf eine effektive Überwachungsmethode ist die geringe Verbesserung der Modellleistung möglicherweise nicht wert. Daher empfehlen wir, starken CoT-Optimierungsdruck zu vermeiden, bis wir ihn besser verstehen“, schlussfolgern die Forscher.
Dieser Rat ist umso dringlicher, als sich die KI in atemberaubendem Tempo weiterentwickelt und schon bald die Intelligenz der Menschen, die sie steuern, übertreffen könnte.
[Anzeige_2]
Quelle: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Kommentar (0)