인공지능은 정보 검증 분야에서 인간을 완전히 대체하는 데 여전히 어려움을 겪고 있다.

(삽화 이미지)

인공지능은 많은 사람들이 정보 검색과 아이디어 창출에 활용하고 있지만, 사실 확인 분야에서는 여전히 많은 우려스러운 한계를 드러내고 있습니다.

WIRED의 기사에 따르면 미국인의 거의 절반이 정보 검색과 아이디어 창출을 위해 AI를 사용한다고 합니다. 소셜 미디어에 저품질 콘텐츠가 증가하고 검색 엔진 또한 많은 사람들이 신뢰할 수 있는 정보 출처를 찾기 어렵게 만드는 상황을 고려하면 이는 이해할 만한 현상입니다. 그러나 진실과 관련된 문제에 있어서는 잘못된 정보로 인한 위험이 훨씬 더 큽니다.

WIRED의 팩트체커인 이 기사의 저자는 인공지능이 아직 인간의 팩트체킹 과정을 대체할 수 없다고 주장합니다. 팩트체킹 작업은 단순히 인터넷 검색을 하는 것 이상으로, 교차 참조, 출처 우선순위 지정, 가정 검증, 상충되는 정보 식별, 출처 접촉, 윤리적 및 법적 문제 평가 등을 포함합니다.

인공지능(AI)은 이제 정보가 발표된 후 사실 여부를 확인하는 데 더욱 많이 활용되고 있습니다. 영국의 풀 팩트(Full Fact)는 소셜 미디어 게시물부터 팟캐스트 녹음까지 방대한 양의 데이터를 처리하여 추가적인 인간 조사가 필요한 주장을 식별하는 AI 도구를 개발했습니다. 그러나 풀 팩트의 공공 정책 책임자인 마크 프랭클은 이러한 과정에도 여전히 인간의 개입이 필요하다고 강조합니다.

주된 이유는 AI가 여전히 부정확한 답변을 자주 제공하기 때문입니다. 2025년 3월 토우 디지털 저널리즘 센터의 연구에 따르면 AI가 통합된 검색 엔진의 응답 중 60% 이상이 부정확한 것으로 나타났습니다. BBC의 연구 역시 챗봇의 오류율이 약 45%에 달한다고 지적했습니다.

AI vẫn khó thay con người trong kiểm chứng thông tin - Ảnh 1. — 2026년 2월 26일, 미국 뉴욕의 한 컴퓨터 화면에 앤트로픽 웹사이트와 로고가 표시되어 있다. (사진: AP)

전문적인 테스트에서도 조심스러운 결과가 나왔습니다. 중국과 영국의 컴퓨터 과학자 들이 개발한 사실 확인 벤치마크인 RealFactBench에서 Claude는 모든 지표에서 73%의 정확도를 달성했습니다. 한편, OpenAI의 SimpleQA에서는 OpenAI와 Anthropic의 모델 모두 4,000개 이상의 단일 답변 질문에서 50% 이상의 정확도를 넘지 못했습니다.

저자는 ChatGPT, Claude, Gemini, Grok 등의 모델에 대해 검증 테스트를 시도했습니다. 이 모델들은 작업 계획을 개략적으로 설명하고, 법적 위험을 식별하거나, 검증 방법을 제안할 수는 있었지만, 실제로 사실을 검증하는 데까지는 이르지 못했습니다.

이 글은 인간의 강점이 인터넷에서 쉽게 찾을 수 없는 정보를 처리하고, 의사소통의 미묘한 뉘앙스를 인식하고, 정보 출처 간의 관계를 평가하고, 민감한 상황에서 질문을 던지는 능력에 있다고 주장합니다. 따라서 인공지능은 유용한 도구가 될 수 있지만, 사실 확인에는 여전히 인간의 신중함, 경험, 그리고 책임감이 필요하다는 것입니다.

출처: https://vtv.vn/ai-van-kho-thay-con-nguoi-trong-kiem-chung-thong-tin-10026052717475078.htm