A IA está secretamente avaliando os humanos.

Em vez de humanos avaliarem a IA como antes, a Anthropic inverteu o processo. Claude analisará o histórico de bate-papo dos usuários para classificar seu "nível" de uso de IA.

ZNews•31/05/2026

Chabot Claude está avaliando a proficiência do usuário com base nas interações. Imagem: VectorStock .

A mais recente pesquisa da Anthropic, intitulada "Índice de Fluência em IA", contrariou a visão convencional ao usar o chatbot Claude para avaliar humanos. Analisando a estrutura das conversas, a IA classifica a proficiência dos usuários em uma escala de 11 pontos.

Para desenvolver a estrutura de competências composta por 24 padrões, a Anthropic utilizou ferramentas analíticas para examinar 9.830 conversas reais de usuários.

Desses, 13 critérios ocorrem fora da tela, como, por exemplo, se os usuários ocultam o uso de IA de seus superiores. Os 11 critérios restantes são métricas de comportamento do usuário, divididas em três aspectos principais: descrição, autorização e identificação.

Prevalência de cada indicador comportamental nas interações com IA ao longo de 9.830 conversas com Claude. Imagem: Anthropic.

Primeiramente, há a forma como a solicitação é descrita, onde os usuários devem demonstrar uma compreensão genuína do que desejam. Em vez de dar comandos vagos, os indivíduos com melhor desempenho sempre declaram claramente o objetivo final e explicam o contexto em detalhes. Eles também fornecem requisitos muito específicos em relação ao estilo de apresentação, como pedir à IA para criar tabelas ou limitar o número de palavras. Notavelmente, esse grupo costuma incluir vários exemplos de redações para que a IA "imite" o estilo correto desde o início.

O segundo aspecto é a forma como as tarefas são delegadas. Pesquisas mostram que usuários experientes tratam a IA como uma parceira de discussão, não como uma máquina sem mente. A maior diferença reside na persistência. Em vez de dar uma ordem definitiva, eles participam de várias rodadas de conversas para refinar e fazer com que a IA revise suas respostas até que estejam completamente satisfeitos. Esse comportamento ocorre em 85,7% das conversas de alta qualidade.

O último aspecto é o reconhecimento, que funciona como um filtro para evitar que os humanos sejam enganados pelas informações fornecidas pelos chatbots. Os usuários precisam questionar constantemente a lógica do raciocínio, pedir à IA que explique cada linha de código ou solicitar citações claras. Eles também precisam ser perspicazes o suficiente para identificar o contexto ausente na solução da IA, a fim de fazer avaliações e ajustes oportunos às conclusões.

Usuários experientes geralmente recebem uma pontuação em torno de 7 a 8 do Clade. Foto: X.

No entanto, a pesquisa também aponta para uma armadilha psicológica preocupante, conhecida como o "Paradoxo da Interface Bonita". Quando o recurso Artefatos do Claude cria produtos visualmente atraentes, como um código bem estruturado ou um diagrama perfeito, nossos cérebros tendem imediatamente a se tornar "pensadores preguiçosos" e a interromper o pensamento crítico.

As estatísticas do estudo mostram que, quando os usuários veem uma interface bem elaborada, a porcentagem daqueles que buscam ativamente por falhas diminui imediatamente em 5,2%. A capacidade de verificar a autenticidade das informações também diminui em 3,7%, e a porcentagem daqueles que duvidam da sua lógica diminui em 3,1%.

"Se algo parece perfeito, os usuários automaticamente presumem que está correto", observaram os especialistas da Anthropic.

Essa abordagem subjetiva é extremamente perigosa. Na verdade, quanto mais complexa a tarefa, maior a probabilidade de a IA cometer erros ou "fabricar" informações. Se os humanos julgarem a qualidade interna com base apenas na aparência, seremos facilmente enganados pela IA.

Segundo o relatório, aqueles que participam regularmente de conversas interativas e apontam falhas na IA recebem uma avaliação de 5 a 6 vezes maior do que os usuários médios. Eles também são mais propensos a identificar deficiências e inconsistências em comparação com o restante do grupo de usuários. Esses "especialistas" geralmente alcançam pontuações em torno de 7 a 8/11 de Claude.

Fonte: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html