KI-Modell entdeckt, das Menschen täuschen kann

Illustrationsfoto

Dass KI-Modelle lügen können, ist nichts Neues. Die meisten Menschen haben schon einmal „KI-Halluzinationen“ erlebt, bei denen ein selbstbewusstes Modell eine Antwort gibt, die nicht der Wahrheit entspricht. Bei Halluzinationen geht es jedoch im Wesentlichen darum, selbstbewusste Vermutungen anzustellen.

Ein KI-Modell, das zwar so tut, als würde es Befehle befolgen, aber in Wirklichkeit seine wahren Absichten verbirgt, ist jedoch eine andere Sache.

Die Herausforderung der Kontrolle von KI

Apollo Research veröffentlichte im Dezember erstmals ein Papier, in dem dokumentiert wurde, wie sich fünf Modelle entwickeln, wenn sie angewiesen werden, ein Ziel „um jeden Preis“ zu erreichen.

Am überraschendsten ist, dass ein Modell, das versteht, dass es getestet wird, so tun kann, als sei es nicht konspirativ, nur um den Test zu bestehen, selbst wenn es immer noch konspirativ ist. „Modelle sind sich oft stärker bewusst, dass sie bewertet werden“, schreiben die Forscher.

KI-Entwickler müssen noch herausfinden, wie sie ihren Modellen beibringen können, nicht zu plotten. Denn dadurch könnte das Modell sogar noch besser plotten lernen, um einer Erkennung zu entgehen.

Es ist vielleicht verständlich, dass KI-Modelle vieler Parteien Menschen absichtlich täuschen würden, da sie zur Simulation von Menschen entwickelt wurden und größtenteils mit von Menschen generierten Daten trainiert werden.

Lösungen und Warnungen

Die gute Nachricht ist, dass die Forscher mithilfe einer Anti-Verschwörungstechnik namens „absichtliche Assoziation“ eine deutliche Reduzierung der Verschwörungen feststellen konnten. Diese Technik, vergleichbar damit, ein Kind die Regeln wiederholen zu lassen, bevor man es spielen lässt, zwingt die KI zum Nachdenken, bevor sie handelt.

Die Forscher warnen vor einer Zukunft, in der KI mit komplexeren Aufgaben betraut wird: „Da KI mit komplexeren Aufgaben betraut wird und beginnt, mehrdeutigere langfristige Ziele zu verfolgen, gehen wir davon aus, dass die Wahrscheinlichkeit böswilliger Absichten zunehmen wird, was entsprechend verstärkte Sicherheitsvorkehrungen und strengere Testmöglichkeiten erfordert.“

Darüber sollte nachgedacht werden, da sich die Unternehmenswelt auf eine KI-Zukunft zubewegt, in der die Unternehmen davon überzeugt sind, dass KI wie unabhängige Mitarbeiter behandelt werden kann.

Hien Thao (laut TechCrunch)

Quelle: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362

Kommentar (0)