AI đang ngầm chấm điểm con người

Thay vì con người đánh giá AI như trước đây, Anthropic đã đảo ngược quy trình. Claude sẽ phân tích lịch sử trò chuyện của người dùng để chấm điểm "trình độ" sử dụng AI.

ZNews•31/05/2026

Chabot Claude đang đánh giá mức độ thành thạo của người dùng dựa trên tương tác. Ảnh: VectorStock.

Nghiên cứu mới nhất mang tên "Chỉ số thành thạo AI" (AI Fluency Index) của Anthropic đã đảo ngược quy luật thông thường khi để chatbot Claude chấm điểm chính con người. Bằng cách phân tích cấu trúc các cuộc hội thoại, AI sẽ xếp hạng trình độ của người dùng trên thang điểm 11.

Để đưa ra bộ khung năng lực bao gồm 24 tiêu chuẩn, Anthropic đã sử dụng các công cụ phân tích để quét 9.830 cuộc hội thoại thực tế của người dùng.

Trong đó, có 13 tiêu chuẩn diễn ra bên ngoài màn hình, ví dụ như việc người dùng có giấu cấp trên chuyện mình dùng AI hay không. 11 tiêu chuẩn còn lại là các chỉ số hành vi của người dùng, được chia làm 3 khía cạnh lớn bao gồm: mô tả, ủy quyền và nhận dạng.

Mức độ phổ biến của từng chỉ số hành vi giao tiếp với AI trong 9.830 cuộc hội thoại với Claude. Ảnh: Anthropic.

Trước hết là cách mô tả yêu cầu, nơi người dùng phải chứng minh mình thực sự hiểu rõ bản thân muốn gì. Thay vì ra lệnh chung chung, những người được điểm cao luôn nêu rõ mục đích cuối cùng và giải thích kỹ ngữ cảnh. Họ cũng đưa ra yêu cầu rất cụ thể về cách trình bày, ví dụ như bắt AI kẻ bảng hay giới hạn số lượng chữ. Đặc biệt, nhóm này thường gửi kèm một vài bài mẫu làm ví dụ để AI "bắt chước" đúng phong cách ngay từ đầu.

Khía cạnh thứ 2 là cách giao việc. Nghiên cứu chỉ ra rằng những người dùng giỏi luôn coi AI như một đối tác cùng thảo luận, chứ không phải một cỗ máy vô tri. Khác biệt lớn nhất ở đây nằm ở sự kiên trì. Thay vì ra lệnh một lần rồi thôi, họ luôn trò chuyện qua lại nhiều vòng để gọt giũa và bắt AI sửa lại câu trả lời cho đến khi thật ưng ý. Hành vi này xuất hiện trong tới 85,7% các cuộc hội thoại chất lượng cao.

Khía cạnh cuối cùng là nhận dạng, đóng vai trò như bộ lọc giúp con người không bị đánh lừa bởi thông tin chatbot đưa ra. Người dùng cần liên tục đặt câu hỏi về logic suy luận, bắt AI giải thích từng dòng mã nguồn hoặc yêu cầu trích dẫn minh chứng rõ ràng. Họ cũng cần tinh ý xác định các ngữ cảnh bị thiếu trong giải pháp của AI để đưa ra những đánh giá, điều chỉnh kịp thời cho phần kết luận.

Những người dùng thành thạo thường được Clade chấm khoảng 7 - 8 điểm. Ảnh: X.

Tuy nhiên, nghiên cứu cũng chỉ ra một bẫy tâm lý đáng lo ngại, được gọi là "Nghịch lý giao diện đẹp". Khi tính năng Artifacts của Claude tạo ra những sản phẩm bắt mắt như một đoạn code mượt mà hay một sơ đồ hoàn hảo, bộ não chúng ta lập tức có xu hướng "lười suy nghĩ" và ngừng phản biện.

Các con số thống kê của nghiên cứu cho thấy khi nhìn thấy một giao diện bóng bẩy, tỷ lệ người dùng chủ động tìm kiếm những điểm thiếu sót giảm ngay 5,2%. Khả năng kiểm tra tính xác thực của thông tin cũng giảm 3,7%, và tỷ lệ nghi ngờ tính logic giảm 3,1%.

“Nếu một thứ gì đó nhìn có vẻ hoàn thiện, người dùng sẽ mặc định coi nó là đúng”, các chuyên gia tại Anthropic nhận định.

Sự chủ quan này cực kỳ nguy hiểm. Thực tế, công việc càng phức tạp thì tỷ lệ AI bị lỗi hoặc "bịa" thông tin càng cao. Nếu con người cứ nhìn vẻ bề ngoài để đánh giá chất lượng bên trong, chúng ta sẽ rất dễ bị AI lừa.

Theo báo cáo, những người có thói quen trò chuyện qua lại và liên tục bắt lỗi AI được đánh giá cao hơn gấp 5 - 6 lần người dùng thông thường. Họ cũng dễ dàng phát hiện ra những điểm thiếu sót, bất hợp lý so với nhóm người dùng còn lại. Những "cao thủ" này thường đạt mức điểm khoảng 7 - 8/11 từ Claude.