AI beoordeelt mensen in het geheim.

In plaats van dat mensen AI beoordelen zoals voorheen, heeft Anthropic het proces omgedraaid. Claude analyseert de chatgeschiedenis van gebruikers om hun "niveau" van AI-gebruik te bepalen.

ZNews•31/05/2026

Chabot Claude beoordeelt de vaardigheid van gebruikers op basis van interacties. Afbeelding: VectorStock .

Het nieuwste onderzoek van Anthropic, getiteld "AI Fluency Index", heeft de gangbare opvattingen op hun kop gezet door de chatbot Claude mensen te laten beoordelen. Door de structuur van gesprekken te analyseren, rangschikt de AI de vaardigheid van gebruikers op een schaal van 11 punten.

Om het competentiekader, bestaande uit 24 standaarden, te ontwikkelen, heeft Anthropic analytische instrumenten gebruikt om 9.830 echte gebruikersgesprekken te analyseren.

Hiervan vinden er 13 buiten het scherm plaats, zoals de vraag of gebruikers hun AI-gebruik voor hun leidinggevenden verbergen. De overige 11 criteria zijn gedragsstatistieken van gebruikers, onderverdeeld in drie hoofdaspecten: beschrijving, autorisatie en identificatie.

De prevalentie van elke gedragsindicator in AI-interacties gedurende 9.830 gesprekken met Claude. Afbeelding: Anthropic.

Ten eerste is er de manier waarop het verzoek wordt beschreven, waarbij gebruikers een oprecht begrip moeten tonen van wat ze willen. In plaats van vage opdrachten te geven, formuleren degenen die hoog scoren altijd duidelijk het uiteindelijke doel en leggen ze de context gedetailleerd uit. Ze geven ook zeer specifieke eisen met betrekking tot de presentatiestijl, zoals het vragen aan de AI om tabellen te maken of het beperken van het aantal woorden. Opvallend is dat deze groep vaak verschillende voorbeeldessays meestuurt, zodat de AI vanaf het begin de juiste stijl kan "nabootsen".

Het tweede aspect betreft de manier waarop taken worden gedelegeerd. Onderzoek toont aan dat ervaren gebruikers AI beschouwen als een gesprekspartner, niet als een hersenloze machine. Het grootste verschil zit hem in de volharding. In plaats van een commando eenmalig te geven, voeren ze meerdere rondes van heen-en-weer gesprekken om de antwoorden van de AI te verfijnen en te laten herzien totdat ze volledig tevreden zijn. Dit gedrag komt voor in 85,7% van de kwalitatief goede gesprekken.

Het laatste aspect is herkenning, die fungeert als een filter om te voorkomen dat mensen misleid worden door de informatie die chatbots verstrekken. Gebruikers moeten de logica van de redenering constant in twijfel trekken, de AI vragen om elke regel code uit te leggen of om duidelijke bronvermeldingen te vragen. Ze moeten ook voldoende inzicht hebben om ontbrekende context in de oplossing van de AI te herkennen, zodat ze tijdig beoordelingen kunnen maken en de conclusies kunnen bijsturen.

Ervaren gebruikers krijgen van Clade doorgaans een score van ongeveer 7-8. Foto: X.

Het onderzoek wijst echter ook op een zorgwekkende psychologische valkuil, bekend als de "Paradox van de Mooie Interface". Wanneer Claude's Artifacts-functie visueel aantrekkelijke producten creëert, zoals een vloeiend stuk code of een perfect diagram, hebben onze hersenen de neiging om onmiddellijk "lui te denken" en stoppen ze met kritisch denken.

De statistieken van het onderzoek tonen aan dat wanneer gebruikers een verfijnde interface zien, het percentage gebruikers dat actief op zoek gaat naar fouten onmiddellijk met 5,2% afneemt. Het vermogen om de authenticiteit van informatie te verifiëren neemt ook met 3,7% af, en het percentage mensen dat de logica ervan in twijfel trekt, daalt met 3,1%.

"Als iets er perfect uitziet, gaan gebruikers er automatisch van uit dat het klopt," merkten de experts van Anthropic op.

Deze subjectieve benadering is uiterst gevaarlijk. Hoe complexer de taak, hoe groter de kans dat AI fouten maakt of informatie "verzint". Als mensen de interne kwaliteit uitsluitend op basis van uiterlijke schijn beoordelen, zullen we ons zeer gemakkelijk door AI laten misleiden.

Volgens het rapport worden gebruikers die regelmatig heen en weer praten en AI-fouten signaleren 5 tot 6 keer hoger gewaardeerd dan gemiddelde gebruikers. Ze zijn ook eerder geneigd om tekortkomingen en inconsistenties te ontdekken dan de rest van de gebruikersgroep. Deze "experts" behalen doorgaans scores van ongeveer 7-8/11 van Claude.

Bron: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html