![]() |
Chabot Claude está avaliando a proficiência do usuário com base nas interações. Imagem: VectorStock . |
A mais recente pesquisa da Anthropic, intitulada "Índice de Fluência em IA", contrariou a visão convencional ao usar o chatbot Claude para avaliar humanos. Analisando a estrutura das conversas, a IA classifica a proficiência dos usuários em uma escala de 11 pontos.
Para desenvolver a estrutura de competências composta por 24 padrões, a Anthropic utilizou ferramentas analíticas para examinar 9.830 conversas reais de usuários.
Desses, 13 critérios ocorrem fora da tela, como, por exemplo, se os usuários ocultam o uso de IA de seus superiores. Os 11 critérios restantes são métricas de comportamento do usuário, divididas em três aspectos principais: descrição, autorização e identificação.
![]() |
Prevalência de cada indicador comportamental nas interações com IA ao longo de 9.830 conversas com Claude. Imagem: Anthropic. |
Primeiramente, há a forma como a solicitação é descrita, onde os usuários devem demonstrar uma compreensão genuína do que desejam. Em vez de dar comandos vagos, os indivíduos com melhor desempenho sempre declaram claramente o objetivo final e explicam o contexto em detalhes. Eles também fornecem requisitos muito específicos em relação ao estilo de apresentação, como pedir à IA para criar tabelas ou limitar o número de palavras. Notavelmente, esse grupo costuma incluir vários exemplos de redações para que a IA "imite" o estilo correto desde o início.
O segundo aspecto é a forma como as tarefas são delegadas. Pesquisas mostram que usuários experientes tratam a IA como uma parceira de discussão, não como uma máquina sem mente. A maior diferença reside na persistência. Em vez de dar uma ordem definitiva, eles participam de várias rodadas de conversas para refinar e fazer com que a IA revise suas respostas até que estejam completamente satisfeitos. Esse comportamento ocorre em 85,7% das conversas de alta qualidade.
O último aspecto é o reconhecimento, que funciona como um filtro para evitar que os humanos sejam enganados pelas informações fornecidas pelos chatbots. Os usuários precisam questionar constantemente a lógica do raciocínio, pedir à IA que explique cada linha de código ou solicitar citações claras. Eles também precisam ser perspicazes o suficiente para identificar o contexto ausente na solução da IA, a fim de fazer avaliações e ajustes oportunos às conclusões.
![]() |
Usuários experientes geralmente recebem uma pontuação em torno de 7 a 8 do Clade. Foto: X. |
No entanto, a pesquisa também aponta para uma armadilha psicológica preocupante, conhecida como o "Paradoxo da Interface Bonita". Quando o recurso Artefatos do Claude cria produtos visualmente atraentes, como um código bem estruturado ou um diagrama perfeito, nossos cérebros tendem imediatamente a se tornar "pensadores preguiçosos" e a interromper o pensamento crítico.
As estatísticas do estudo mostram que, quando os usuários veem uma interface bem elaborada, a porcentagem daqueles que buscam ativamente por falhas diminui imediatamente em 5,2%. A capacidade de verificar a autenticidade das informações também diminui em 3,7%, e a porcentagem daqueles que duvidam da sua lógica diminui em 3,1%.
"Se algo parece perfeito, os usuários automaticamente presumem que está correto", observaram os especialistas da Anthropic.
Essa abordagem subjetiva é extremamente perigosa. Na verdade, quanto mais complexa a tarefa, maior a probabilidade de a IA cometer erros ou "fabricar" informações. Se os humanos julgarem a qualidade interna com base apenas na aparência, seremos facilmente enganados pela IA.
Segundo o relatório, aqueles que participam regularmente de conversas interativas e apontam falhas na IA recebem uma avaliação de 5 a 6 vezes maior do que os usuários médios. Eles também são mais propensos a identificar deficiências e inconsistências em comparação com o restante do grupo de usuários. Esses "especialistas" geralmente alcançam pontuações em torno de 7 a 8/11 de Claude.
Fonte: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











Comentário (0)