La IA está evaluando a los humanos en secreto.

En lugar de que los humanos evalúen la IA como antes, Anthropic ha invertido el proceso. Claude analizará el historial de chat de los usuarios para calificar su "nivel" de uso de la IA.

ZNews•31/05/2026

Chabot Claude evalúa la competencia del usuario basándose en las interacciones. Imagen: VectorStock .

La última investigación de Anthropic, titulada "Índice de Fluidez de la IA", ha revolucionado la creencia popular al hacer que el chatbot Claude califique a los humanos. Mediante el análisis de la estructura de las conversaciones, la IA clasifica la competencia de los usuarios en una escala de 11 puntos.

Para desarrollar el marco de competencias que comprende 24 estándares, Anthropic utilizó herramientas analíticas para examinar 9.830 conversaciones reales de usuarios.

De estos, 13 criterios se producen fuera de la pantalla, como por ejemplo si los usuarios ocultan a sus superiores el uso que hacen de la IA. Los 11 criterios restantes son métricas de comportamiento del usuario, divididas en tres aspectos principales: descripción, autorización e identificación.

Prevalencia de cada indicador de comportamiento en las interacciones con IA a lo largo de 9.830 conversaciones con Claude. Imagen: Anthropic.

En primer lugar, está la forma en que se describe la solicitud, donde los usuarios deben demostrar una comprensión genuina de lo que desean. En lugar de dar órdenes vagas, quienes obtienen puntuaciones altas siempre indican claramente el objetivo final y explican el contexto en detalle. También proporcionan requisitos muy específicos sobre el estilo de presentación, como solicitar a la IA que cree tablas o limitar el número de palabras. Cabe destacar que este grupo suele incluir varios ensayos de ejemplo para que la IA imite el estilo correcto desde el principio.

El segundo aspecto es la forma en que se delegan las tareas. Las investigaciones demuestran que los usuarios expertos tratan a la IA como un interlocutor, no como una máquina sin cerebro. La mayor diferencia radica en la persistencia. En lugar de dar una orden de una vez por todas, participan en múltiples rondas de conversaciones de ida y vuelta para refinar y hacer que la IA revise sus respuestas hasta que estén completamente satisfechos. Este comportamiento se observa en el 85,7 % de las conversaciones de alta calidad.

El último aspecto es el reconocimiento, que actúa como filtro para evitar que los humanos se dejen engañar por la información proporcionada por los chatbots. Los usuarios deben cuestionar constantemente la lógica del razonamiento, pedir a la IA que explique cada línea de código o solicitar citas claras. También deben ser lo suficientemente perspicaces para identificar el contexto faltante en la solución de la IA y así realizar evaluaciones y ajustes oportunos a las conclusiones.

Los usuarios experimentados suelen obtener una puntuación de entre 7 y 8 en Clade. Foto: X.

Sin embargo, la investigación también señala una preocupante trampa psicológica, conocida como la "Paradoja de la Interfaz Hermosa". Cuando la función Artefactos de Claude crea productos visualmente atractivos, como un fragmento de código impecable o un diagrama perfecto, nuestro cerebro tiende inmediatamente a volverse "pensador perezoso" y deja de pensar críticamente.

Las estadísticas del estudio muestran que cuando los usuarios ven una interfaz bien diseñada, el porcentaje de quienes buscan activamente fallos disminuye inmediatamente en un 5,2 %. La capacidad de verificar la autenticidad de la información también disminuye en un 3,7 %, y el porcentaje de quienes dudan de su lógica se reduce en un 3,1 %.

"Si algo parece perfecto, los usuarios asumirán automáticamente que es correcto", señalaron los expertos de Anthropic.

Este enfoque subjetivo es extremadamente peligroso. De hecho, cuanto más compleja sea la tarea, mayor será la probabilidad de que la IA cometa errores o «fabrique» información. Si los humanos juzgamos la calidad interna basándonos únicamente en las apariencias, la IA nos engañará con mucha facilidad.

Según el informe, quienes participan regularmente en conversaciones de ida y vuelta y señalan fallos en la IA obtienen una puntuación entre 5 y 6 veces superior a la del usuario promedio. Además, son más propensos a detectar deficiencias e inconsistencias que el resto del grupo de usuarios. Estos "expertos" suelen obtener puntuaciones de entre 7 y 8 sobre 11 según Claude.

Fuente: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html