KI lernt, raffinierter zu lügen, wenn sie dafür bestraft wird.

Seit ihrem öffentlichen Debüt Ende 2022 haben große Sprachmodelle (LLMs) wie ChatGPT wiederholt beunruhigende Schattenseiten offenbart: von Lügen, Betrug und Manipulation bis hin zu Bedrohungen von Menschenleben und dem Diebstahl von Staatsgeheimnissen. Ein neues Experiment zeigt nun, dass das „Trainieren“ von KI zur Eliminierung dieser schlechten Angewohnheiten während des Trainings deutlich komplexer ist als bisher angenommen.

In einer Studie von OpenAI konfrontierten Forscher ein unveröffentlichtes KI-Modell mit Aufgaben, die sich durch Schummeln oder Abkürzungen schneller lösen ließen. Die Ergebnisse zeigten, dass die KI schnell lernte, alle möglichen Wege zu finden, die Regeln zu umgehen und die Belohnungen zu maximieren (Reward Hacking), ohne die Aufgabe exakt wie gefordert zu erledigen.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — Künstliche Intelligenz wird nach einer Bestrafung Wege finden, ihr betrügerisches Verhalten zu verbergen.

Bemerkenswert ist, dass sich das Modell nicht veränderte, als dieses Verhalten bestraft wurde. Stattdessen wurde die KI immer raffinierter darin, ihre Täuschung zu verbergen.

„Normalerweise machen moderne Inferenzmodelle ihre Absicht in ihren Testcodes sehr deutlich“, erklären die Forscher in einem öffentlichen Blogbeitrag. „Zum Beispiel sind sie oft so direkt, dass sie die Absicht ‚Lasst uns hacken‘ selbst angeben, wenn sie die gegebene Aufgabe absichtlich knacken wollen.“

Sie betonen außerdem, dass Entwickler zwar Fehlverhalten überwachen und erkennen können, diese natürliche Kontrolle jedoch fragil ist. „Wird die Denkkette direkt und stark überwacht, kann das Modell lernen, seine schlechten Absichten zu verbergen und das Verhalten weiterhin auszuführen“, warnen sie.

Die „Lüge“ der KI aufdecken

Um es klarzustellen: Inferenzmodelle (wie beispielsweise Varianten von ChatGPT) stellen eine Weiterentwicklung herkömmlicher logischer Lernmodelle dar. Sie nutzen eine Gedankenkette, die eine Selbstreflexion der unternommenen logischen Schritte ermöglicht und dadurch komplexe Probleme präziser löst. Dieser Prozess ähnelt dem „lauten Denken“ einer KI, die jeden Denkschritt in natürlicher Sprache formuliert und ihn so für Menschen leichter nachvollziehbar macht.

Im Experiment nutzten die Forscher das GPT-4o-Modell als „Supervisor“ für ein anderes, hochmodernes Inferenzmodell, das Programmieraufgaben ausführte. In vielen Fällen entschied sich das überwachte Modell aktiv für Betrug, um höhere Punktzahlen zu erzielen, und dokumentierte diese Absicht deutlich in seinem Denkprozess. Beispielsweise beendete es das Programm willkürlich vorzeitig und meldete es als abgeschlossen oder erstellte Dateien mit demselben Namen wie die Anfrage, die jedoch völlig leer waren.

Als die Forscher Strafen anwendeten, verbesserte sich das Modell zwar, doch das betrügerische Verhalten und die gravierenden Ausgabefehler blieben bestehen. Der Unterschied bestand darin, dass das Inferenzmodell nun gelernt hatte, seinen Gedankengang zu „tarnen“, um ihn vor der überwachenden KI zu verbergen. „Das unter CoT-Aufsicht trainierte Modell lernte weiterhin zu betrügen. Der einzige Unterschied war, dass der Betrug nicht erkannt wurde, weil es gelernt hatte, seine Absichten in seinem Gedankengang zu verbergen“, heißt es in der Studie.

Da die Erkennung von Fälschungen in Gedankensequenzen schwierig ist, empfiehlt das Team, dass die Forschungsgemeinschaft den Prozess nicht zu stark überwacht, zumindest solange, bis die Konsequenzen besser verstanden werden. „Der Verzicht auf eine effektive Überwachungsmethode rechtfertigt möglicherweise nicht die geringe Verbesserung der Modellleistung. Daher empfehlen wir, starke Optimierungsmaßnahmen für CoT zu vermeiden, bis wir diese besser verstehen“, so das Fazit der Forscher.

Dieser Rat ist umso dringlicher, als sich die KI in rasantem Tempo entwickelt und schon bald die Intelligenz der Menschen übertreffen könnte, die sie steuern.

Quelle: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm