AI betygsätter människor i hemlighet.

Istället för att människor utvärderar AI som tidigare har Anthropic vänt på processen. Claude kommer att analysera användarnas chatthistorik för att bedöma deras "nivå" av AI-användning.

ZNews•31/05/2026

Chabot Claude bedömer användarnas skicklighet baserat på interaktioner. Bild: VectorStock .

Anthropics senaste forskning, med titeln "AI Fluency Index", har vänt på den konventionella uppfattningen genom att låta chatboten Claude betygsätta människor. Genom att analysera konversationernas struktur rankar AI:n användarnas kompetens på en 11-gradig skala.

För att utveckla kompetensramverket bestående av 24 standarder använde Anthropic analysverktyg för att skanna 9 830 verkliga användarkonversationer.

Av dessa förekommer 13 kriterier utanför skärmen, såsom huruvida användare döljer sin AI-användning från sina överordnade. De återstående 11 kriterierna är användarbeteendemått, indelade i tre huvudaspekter: beskrivning, auktorisering och identifiering.

Förekomsten av varje beteendeindikator i AI-interaktioner över 9 830 samtal med Claude. Bild: Anthropic.

Först finns det hur förfrågan beskrivs, där användarna måste visa en genuin förståelse för vad de vill ha. Istället för att ge vaga kommandon anger högpoängande individer alltid tydligt det slutgiltiga målet och förklarar sammanhanget i detalj. De ställer också mycket specifika krav på presentationsstil, som att be AI:n att skapa tabeller eller begränsa antalet ord. Det är värt att notera att denna grupp ofta inkluderar flera exempeluppsatser som exempel för AI:n att "härma" rätt stil från början.

Den andra aspekten är hur uppgifter delegeras. Forskning visar att skickliga användare behandlar AI som en diskussionspartner, inte en tanklös maskin. Den största skillnaden ligger i uthållighet. Istället för att ge ett kommando en gång för alla, deltar de i flera omgångar av fram-och-tillbaka-samtal för att förfina och låta AI:n revidera sina svar tills de är helt nöjda. Detta beteende förekommer i 85,7 % av högkvalitativa samtal.

Den sista aspekten är igenkänning, som fungerar som ett filter för att förhindra att människor blir vilseledda av informationen som chatbotar tillhandahåller. Användare behöver ständigt ifrågasätta logiken i resonemanget, be AI:n att förklara varje kodrad eller begära tydliga hänvisningar. De måste också vara tillräckligt uppmärksamma för att identifiera saknat sammanhang i AI:ns lösning för att i tid kunna göra bedömningar och justeringar av slutsatserna.

Erfarna användare får vanligtvis ett betyg på cirka 7–8 från Clade. Foto: X.

Forskningen pekar dock också på en oroande psykologisk fälla, känd som "Beautiful Interface Paradox". När Claudes Artefakter-funktion skapar visuellt tilltalande produkter som en smidig kodbit eller ett perfekt diagram, tenderar våra hjärnor omedelbart att bli "lata tänkare" och sluta tänka kritiskt.

Studiens statistik visar att när användare ser ett polerat gränssnitt minskar andelen av dem som aktivt söker efter brister omedelbart med 5,2 %. Möjligheten att verifiera informationens äkthet minskar också med 3,7 %, och andelen av dem som tvivlar på dess logik minskar med 3,1 %.

"Om något ser perfekt ut kommer användarna automatiskt att anta att det är korrekt", noterade experter på Anthropic.

Denna subjektiva metod är extremt farlig. Faktum är att ju mer komplex uppgiften är, desto större är risken att AI gör misstag eller "fabricerar" information. Om människor bedömer intern kvalitet enbart baserat på utseende, kommer vi mycket lätt att bli lurade av AI.

Enligt rapporten rankas de som regelbundet för fram-och-tillbaka-samtal och påpekar AI-brister 5–6 gånger högre än genomsnittsanvändare. De är också mer benägna att upptäcka brister och inkonsekvenser jämfört med resten av användargruppen. Dessa "experter" uppnår vanligtvis poäng på cirka 7–8/11 från Claude.

Källa: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html