Künstliche Intelligenz bewertet Menschen im Geheimen.

Chabot Claude bewertet die Benutzerkompetenz anhand der Interaktionen. Bild: VectorStock .

Die neueste Studie von Anthropic mit dem Titel „KI-Sprachkompetenzindex“ stellt die gängige Meinung auf den Kopf: Der Chatbot Claude bewertet Menschen. Durch die Analyse der Gesprächsstruktur ordnet die KI die Sprachkompetenz der Nutzer auf einer 11-Punkte-Skala ein.

Zur Entwicklung des Kompetenzrahmens, der 24 Standards umfasst, nutzte Anthropic analytische Werkzeuge, um 9.830 reale Benutzergespräche zu scannen.

Dreizehn dieser Kriterien finden außerhalb des Bildschirms statt, beispielsweise ob Nutzer ihre KI-Nutzung vor ihren Vorgesetzten verbergen. Die verbleibenden elf Kriterien sind Kennzahlen zum Nutzerverhalten, unterteilt in drei Hauptaspekte: Beschreibung, Autorisierung und Identifizierung.

Die Häufigkeit der einzelnen Verhaltensindikatoren in KI-Interaktionen in 9.830 Gesprächen mit Claude. Bild: Anthropic.

Zunächst einmal kommt es auf die Art der Anfrage an. Nutzer müssen hier ein echtes Verständnis ihrer Wünsche beweisen. Anstatt vage Anweisungen zu geben, formulieren erfolgreiche Nutzer stets klar das Endziel und erläutern den Kontext detailliert. Sie stellen außerdem sehr spezifische Anforderungen an den Präsentationsstil, beispielsweise die Anforderung, dass die KI Tabellen erstellt oder die Wortanzahl begrenzt wird. Auffällig ist, dass diese Gruppe häufig mehrere Beispielaufsätze hinzufügt, damit die KI von Anfang an den korrekten Stil „nachahmen“ kann.

Der zweite Aspekt betrifft die Aufgabenverteilung. Studien zeigen, dass geübte Nutzer KI als Diskussionspartner und nicht als gefühllose Maschine betrachten. Der größte Unterschied liegt in der Beharrlichkeit. Anstatt einen Befehl ein für alle Mal zu erteilen, führen sie mehrere Dialogrunden, um die KI-Antworten zu verfeinern und zu überarbeiten, bis sie vollkommen zufrieden sind. Dieses Verhalten findet sich in 85,7 % der qualitativ hochwertigen Konversationen.

Der letzte Aspekt ist die Erkennung, die als Filter dient, um zu verhindern, dass Menschen durch die von Chatbots bereitgestellten Informationen irregeführt werden. Nutzer müssen die Logik der Argumentation ständig hinterfragen, die KI bitten, jede Codezeile zu erklären oder klare Quellenangaben anfordern. Sie müssen außerdem aufmerksam genug sein, um fehlenden Kontext in der Lösung der KI zu erkennen und so zeitnah Bewertungen und Anpassungen der Schlussfolgerungen vornehmen zu können.

Erfahrene Nutzer erhalten von Clade in der Regel eine Bewertung von etwa 7–8 Punkten. Foto: X.

Die Forschung weist jedoch auch auf eine besorgniserregende psychologische Falle hin, das sogenannte „Beautiful Interface Paradox“. Wenn Claudes Funktion „Artefakte“ visuell ansprechende Produkte wie einen reibungslosen Code oder ein perfektes Diagramm erzeugt, neigen unsere Gehirne sofort dazu, „bequeme Denker“ zu werden und kritisches Denken einzustellen.

Die Studienstatistik zeigt, dass bei Nutzern mit einer ansprechenden Benutzeroberfläche der Anteil derjenigen, die aktiv nach Fehlern suchen, sofort um 5,2 % sinkt. Auch die Fähigkeit, die Echtheit von Informationen zu überprüfen, verringert sich um 3,7 %, und der Anteil derjenigen, die die Logik der Informationen anzweifeln, sinkt um 3,1 %.

„Wenn etwas perfekt aussieht, gehen die Nutzer automatisch davon aus, dass es korrekt ist“, stellten die Experten von Anthropic fest.

Dieser subjektive Ansatz ist äußerst gefährlich. Je komplexer die Aufgabe, desto höher ist die Wahrscheinlichkeit, dass KI Fehler macht oder Informationen „erfindet“. Wenn Menschen die interne Qualität allein nach dem Äußeren beurteilen, lassen wir uns von KI sehr leicht täuschen.

Dem Bericht zufolge werden Nutzer, die regelmäßig Dialoge führen und auf KI-Schwächen hinweisen, 5- bis 6-mal besser bewertet als durchschnittliche Nutzer. Sie erkennen zudem häufiger Mängel und Inkonsistenzen als der Rest der Nutzergruppe. Diese „Experten“ erzielen bei Claude typischerweise Bewertungen von etwa 7 bis 8 von 11 Punkten.