AI vurderer mennesker i hemmelighet.

I stedet for at mennesker evaluerer AI som før, har Anthropic snudd prosessen. Claude vil analysere brukernes chathistorikk for å score deres «nivå» av AI-bruk.

ZNews•31/05/2026

Chabot Claude vurderer brukerferdigheter basert på interaksjoner. Bilde: VectorStock .

Anthropics nyeste forskning, med tittelen «AI Fluency Index», har snudd den vanlige oppfatningen ved å la chatboten Claude vurdere mennesker. Ved å analysere strukturen i samtaler rangerer AI-en brukernes ferdigheter på en 11-punkts skala.

For å utvikle kompetanserammeverket som består av 24 standarder, brukte Anthropic analyseverktøy til å skanne 9830 brukersamtaler fra virkeligheten.

Av disse forekommer 13 kriterier utenfor skjermen, for eksempel om brukere skjuler sin bruk av kunstig intelligens fra sine overordnede. De resterende 11 kriteriene er brukeratferdsmålinger, delt inn i tre hovedaspekter: beskrivelse, autorisasjon og identifikasjon.

Forekomsten av hver atferdsindikator i AI-interaksjoner på tvers av 9830 samtaler med Claude. Bilde: Anthropic.

For det første er det måten forespørselen beskrives på, der brukerne må demonstrere en genuin forståelse av hva de ønsker. I stedet for å gi vage kommandoer, oppgir personer med høy score alltid tydelig det endelige målet og forklarer konteksten i detalj. De stiller også svært spesifikke krav til presentasjonsstil, for eksempel å be AI-en om å lage tabeller eller begrense antall ord. Det er verdt å merke seg at denne gruppen ofte inkluderer flere eksempelessays som eksempler for AI-en for å "etterligne" riktig stil fra starten av.

Det andre aspektet er måten oppgaver delegeres på. Forskning viser at dyktige brukere behandler AI som en diskusjonspartner, ikke en tankeløs maskin. Den største forskjellen ligger i utholdenhet. I stedet for å gi en kommando én gang for alle, deltar de i flere runder med frem-og-tilbake-samtaler for å finpusse og få AI-en til å revidere svarene sine til de er helt fornøyde. Denne oppførselen forekommer i 85,7 % av samtaler av høy kvalitet.

Det siste aspektet er gjenkjenning, som fungerer som et filter for å forhindre at mennesker blir villedet av informasjonen som chatbotene gir. Brukere må stadig stille spørsmål ved logikken i resonnementet, be AI-en om å forklare hver kodelinje, eller be om tydelige sitater. De må også være oppmerksomme nok til å identifisere manglende kontekst i AI-ens løsning for å kunne gjøre rettidige vurderinger og justeringer av konklusjonene.

Erfarne brukere får vanligvis en poengsum på rundt 7–8 fra Clade. Foto: X.

Forskningen peker imidlertid også på en bekymringsfull psykologisk felle, kjent som «Beautiful Interface Paradox». Når Claudes Artifacts-funksjon skaper visuelt tiltalende produkter som et glatt kodestykke eller et perfekt diagram, har hjernen vår umiddelbart en tendens til å bli «late tenkere» og slutte å tenke kritisk.

Studiens statistikk viser at når brukere ser et polert grensesnitt, reduseres andelen av dem som aktivt søker etter feil umiddelbart med 5,2 %. Evnen til å bekrefte ektheten av informasjon reduseres også med 3,7 %, og andelen av de som tviler på logikken reduseres med 3,1 %.

«Hvis noe ser perfekt ut, vil brukerne automatisk anta at det er riktig», bemerket eksperter hos Anthropic.

Denne subjektive tilnærmingen er ekstremt farlig. Faktisk, jo mer kompleks oppgaven er, desto større er sjansen for at AI vil gjøre feil eller «fabrikere» informasjon. Hvis mennesker bedømmer intern kvalitet utelukkende basert på utseende, vil vi lett bli lurt av AI.

Ifølge rapporten blir de som regelmessig deltar i frem-og-tilbake-samtaler og påpeker AI-feil vurdert 5–6 ganger høyere enn gjennomsnittsbrukere. De har også større sannsynlighet for å oppdage mangler og inkonsekvenser sammenlignet med resten av brukergruppen. Disse «ekspertene» oppnår vanligvis poengsummer på rundt 7–8/11 fra Claude.

Kilde: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html