L'IA évalue secrètement les humains.

Chabot Claude évalue les compétences des utilisateurs en fonction de leurs interactions. Image : VectorStock .

La dernière étude d'Anthropic, intitulée « Indice de fluidité de l'IA », bouleverse les idées reçues en faisant évaluer les humains par le chatbot Claude. En analysant la structure des conversations, l'IA classe les utilisateurs selon leur niveau de compétence sur une échelle de 11 points.

Pour élaborer le cadre de compétences comprenant 24 normes, Anthropic a utilisé des outils analytiques pour analyser 9 830 conversations réelles d'utilisateurs.

Parmi ces critères, 13 se situent hors écran, par exemple si les utilisateurs dissimulent leur utilisation de l'IA à leurs supérieurs. Les 11 critères restants sont des indicateurs de comportement des utilisateurs, répartis en trois grandes catégories : description, autorisation et identification.

Prévalence de chaque indicateur comportemental dans les interactions avec l'IA à travers 9 830 conversations avec Claude. Image : Anthropic.

Tout d'abord, la formulation de la requête est cruciale : les utilisateurs doivent démontrer une réelle compréhension de leurs besoins. Au lieu de donner des instructions vagues, les personnes les plus performantes énoncent clairement l'objectif final et expliquent le contexte en détail. Elles fournissent également des exigences très précises concernant le style de présentation, comme la création de tableaux ou une limite de mots. Il est à noter que ce groupe inclut souvent plusieurs exemples de dissertations afin que l'IA puisse adopter le style attendu dès le départ.

Le second aspect concerne la délégation des tâches. Les recherches montrent que les utilisateurs expérimentés considèrent l'IA comme un partenaire de discussion, et non comme une machine dénuée de conscience. La principale différence réside dans la persévérance. Au lieu de donner un ordre définitif, ils engagent plusieurs échanges pour affiner les réponses de l'IA et les faire réviser jusqu'à entière satisfaction. Ce comportement est observé dans 85,7 % des conversations de haute qualité.

Le dernier aspect concerne la reconnaissance, qui agit comme un filtre pour empêcher les utilisateurs d'être induits en erreur par les informations fournies par les chatbots. Les utilisateurs doivent constamment questionner la logique du raisonnement, demander à l'IA d'expliquer chaque ligne de code ou exiger des citations claires. Ils doivent également être suffisamment perspicaces pour identifier les éléments de contexte manquants dans la solution de l'IA afin de procéder à des évaluations et des ajustements opportuns des conclusions.

Les utilisateurs expérimentés obtiennent généralement une note d'environ 7 à 8 sur Clade. Photo : X.

Cependant, la recherche met également en lumière un piège psychologique inquiétant, connu sous le nom de « paradoxe de la belle interface ». Lorsque la fonctionnalité Artifacts de Claude crée des produits visuellement attrayants, tels qu'un morceau de code fluide ou un diagramme parfait, notre cerveau a immédiatement tendance à devenir un « penseur paresseux » et à cesser toute réflexion critique.

Les statistiques de l'étude montrent que lorsqu'un utilisateur voit une interface soignée, le pourcentage de ceux qui recherchent activement des défauts diminue immédiatement de 5,2 %. La capacité à vérifier l'authenticité des informations diminue également de 3,7 %, et le pourcentage de ceux qui doutent de leur logique diminue de 3,1 %.

« Si quelque chose paraît parfait, les utilisateurs supposeront automatiquement que c'est correct », ont fait remarquer les experts d'Anthropic.

Cette approche subjective est extrêmement dangereuse. En effet, plus la tâche est complexe, plus le risque que l'IA commette des erreurs ou « falsifie » des informations est élevé. Si les humains jugent la qualité interne uniquement sur la base des apparences, nous serons très facilement trompés par l'IA.

D'après le rapport, les utilisateurs qui échangent régulièrement avec le système et signalent les failles de l'IA obtiennent une note 5 à 6 fois supérieure à la moyenne. Ils sont également plus à même de repérer les lacunes et les incohérences. Ces « experts » obtiennent généralement une note de 7 à 8/11 auprès de Claude.