![]() |
샤보 클로드는 사용자 상호작용을 기반으로 사용자 숙련도를 평가하고 있습니다. 이미지: VectorStock |
앤트로픽의 최신 연구인 "AI 유창성 지수"는 챗봇 클로드가 인간의 대화 능력을 평가하도록 함으로써 기존의 통념을 뒤집었습니다. 이 AI는 대화 구조를 분석하여 사용자의 숙련도를 11점 척도로 평가합니다.
24개의 표준으로 구성된 역량 프레임워크를 개발하기 위해 Anthropic은 분석 도구를 사용하여 9,830건의 실제 사용자 대화를 분석했습니다.
이 중 13개 기준은 사용자가 상사에게 AI 사용 사실을 숨기는지 여부와 같이 화면 외부에서 발생하는 문제입니다. 나머지 11개 기준은 사용자 행동 측정 지표이며, 설명, 권한 부여, 식별이라는 세 가지 주요 측면으로 나뉩니다.
![]() |
클로드와의 9,830건의 대화에서 나타난 각 행동 지표의 빈도. 이미지: Anthropic. |
첫째, 요청을 설명하는 방식이 중요한데, 사용자는 자신이 원하는 바를 진정으로 이해하고 있음을 보여줘야 합니다. 모호한 명령을 내리는 대신, 높은 점수를 받은 사용자들은 항상 최종 목표를 명확히 제시하고 맥락을 자세히 설명합니다. 또한, AI에게 표를 만들도록 요청하거나 단어 수를 제한하는 등 표현 방식에 대한 매우 구체적인 요구 사항을 제시하기도 합니다. 특히, 이 그룹은 AI가 처음부터 올바른 스타일을 "모방"할 수 있도록 여러 개의 샘플 에세이를 예시로 제공하는 경우가 많습니다.
두 번째 측면은 작업 위임 방식입니다. 연구에 따르면 숙련된 사용자는 AI를 생각 없는 기계가 아닌 대화 상대처럼 대합니다. 가장 큰 차이점은 지속성에 있습니다. 한 번에 모든 것을 결정하는 대신, AI와 여러 차례 대화를 주고받으며 답변을 다듬고 수정하여 완전히 만족할 때까지 진행합니다. 이러한 행동은 고품질 대화의 85.7%에서 나타납니다.
마지막으로 중요한 측면은 인식 능력입니다. 이는 챗봇이 제공하는 정보에 사람이 현혹되지 않도록 걸러내는 필터 역할을 합니다. 사용자는 논리의 타당성에 끊임없이 의문을 제기하고, AI에게 코드의 각 줄에 대한 설명을 요청하거나 명확한 출처를 제시해 달라고 요구해야 합니다. 또한 AI의 해결책에서 누락된 맥락을 파악하고 시의적절하게 판단하여 결론을 수정할 수 있는 통찰력도 필요합니다.
![]() |
숙련된 사용자는 일반적으로 Clade에서 7~8점 정도의 점수를 받습니다. 사진: X. |
하지만 이 연구는 '아름다운 인터페이스 역설'이라고 알려진 우려스러운 심리적 함정을 지적합니다. 클로드의 아티팩트 기능이 매끄러운 코드나 완벽한 다이어그램과 같이 시각적으로 매력적인 결과물을 만들어낼 때, 우리의 뇌는 즉시 '게으른 사고'를 하게 되고 비판적 사고를 멈추는 경향이 있다는 것입니다.
연구 통계에 따르면, 사용자들이 세련된 인터페이스를 접했을 때, 적극적으로 오류를 찾아내려는 비율이 즉시 5.2% 감소하는 것으로 나타났습니다. 정보의 진위 여부를 확인할 수 있는 능력 또한 3.7% 감소했으며, 논리성에 의문을 제기하는 비율도 3.1% 감소했습니다.
앤트로픽의 전문가들은 "어떤 것이 완벽해 보이면 사용자는 자동으로 그것이 옳다고 생각할 것"이라고 지적했습니다.
이러한 주관적인 접근 방식은 매우 위험합니다. 실제로 작업이 복잡할수록 AI가 오류를 범하거나 정보를 조작할 가능성이 높아집니다. 만약 인간이 내면의 질을 오로지 겉모습만으로 판단한다면, AI에 매우 쉽게 속을 것입니다.
보고서에 따르면, 정기적으로 AI와 대화를 나누고 AI의 결함을 지적하는 사용자들은 일반 사용자보다 5~6배 높은 평가를 받습니다. 또한, 이들은 다른 사용자 그룹에 비해 AI의 단점이나 불일치를 발견할 가능성이 더 높습니다. 이러한 "전문가"들은 일반적으로 Claude의 평가에서 7~8/11점 정도의 점수를 얻습니다.
출처: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











댓글 (0)