AIは密かに人間を評価している。

従来のように人間がAIを評価するのではなく、Anthropicはプロセスを逆転させた。Claudeはユーザーのチャット履歴を分析し、AIの使用レベルをスコア化する。

ZNews•31/05/2026

シャボット・クロードは、ユーザーの操作に基づいて習熟度を評価しています。画像： VectorStock 。

Anthropic社の最新研究「AI流暢性指数」は、チャットボットのクロードに人間を評価させることで、従来の常識を覆した。AIは会話の構造を分析することで、ユーザーの流暢さを11段階の尺度でランク付けする。

24の基準からなる能力フレームワークを開発するために、Anthropicは分析ツールを使用して、実際のユーザーとの会話9,830件を分析した。

これらの基準のうち、13項目は画面外で発生するもので、例えば、ユーザーが上司にAIの使用を隠しているかどうかなどが含まれる。残りの11項目はユーザー行動に関する指標であり、説明、承認、識別の3つの主要な側面に分類される。

クロードとの9,830回の会話における、AIとのやり取りにおける各行動指標の出現頻度。画像： Anthropic。

まず、リクエストの記述方法において、ユーザーは自分が何を求めているのかを真に理解していることを示す必要があります。高得点を獲得するユーザーは、曖昧な指示を与えるのではなく、常に最終目標を明確に述べ、その背景を詳細に説明します。また、AIに表を作成させたり、単語数を制限したりするなど、プレゼンテーションのスタイルに関して非常に具体的な要件を指定します。特筆すべきは、このグループはAIが最初から正しいスタイルを「模倣」できるように、複数のサンプルエッセイを例として含めることが多い点です。

2つ目の側面は、タスクの委任方法です。調査によると、熟練ユーザーはAIを単なる機械ではなく、対話相手として扱います。最大の違いは、その粘り強さにあります。一度命令を下してそれで終わりにするのではなく、何度もやり取りを重ね、AIの回答を洗練させ、完全に満足するまで修正を促します。このような行動は、質の高い会話の85.7%に見られます。

最後の要素は認識であり、チャットボットが提供する情報によって人間が誤った方向に導かれるのを防ぐフィルターとして機能します。ユーザーは推論の論理を常に問い、AIにコードの各行の説明を求めたり、明確な引用を要求したりする必要があります。また、AIのソリューションにおける欠落したコンテキストを特定し、タイムリーな評価と結論の修正を行うための十分な洞察力も必要です。

経験豊富なユーザーは通常、Cladeから7～8程度のスコアを受け取ります。写真： X。

しかし、この研究は「美しいインターフェースのパラドックス」として知られる、憂慮すべき心理的落とし穴も指摘している。Claudeのアーティファクト機能が、滑らかなコードや完璧な図表といった視覚的に魅力的な成果物を作成すると、私たちの脳はすぐに「怠惰な思考」に陥り、批判的思考を停止してしまう傾向がある。

この調査の統計によると、洗練されたインターフェースを見たユーザーは、積極的に欠陥を探す割合が5.2%減少する。また、情報の信憑性を検証する能力も3.7%低下し、その論理性を疑う人の割合も3.1%減少する。

「見た目が完璧なものは、ユーザーが自動的に正しいと思い込んでしまう」と、Anthropic社の専門家は指摘した。

このような主観的なアプローチは極めて危険です。実際、タスクが複雑になればなるほど、AIが間違いを犯したり、情報を「捏造」したりする可能性が高くなります。人間が外見だけで内部品質を判断してしまうと、AIに簡単に騙されてしまうでしょう。

報告書によると、定期的に活発なやり取りを行い、AIの欠陥を指摘するユーザーは、平均的なユーザーよりも5～6倍高い評価を受けている。また、他のユーザーグループと比べて、欠陥や矛盾点を見抜く可能性も高い。こうした「エキスパート」は通常、Claudeから11点満点中7～8点程度のスコアを獲得している。

出典：https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html