4대 AI 모델이 가장 자신 있게 틀리게 대답하는 앱을 찾기 위해 경쟁합니다.

[광고_1]

머신 러닝 모니터링 플랫폼인 Arthur AI의 연구원들은 업계를 선도하는 모델을 테스트한 결과, GPT-4가 수학에서 가장 우수하고, Llama 2는 전반적으로 평균적인 수준을 보였으며, Anthropic의 Claude 2는 한계를 가장 잘 알고 있었고, Cohere AI는 가장 자신 있게 틀린 답을 내놓는 가장 "틀린 생각에 빠진" 모델이라는 타이틀을 차지했습니다.

Arthur AI의 보고서는 2024년 미국 대선이 다가오면서 AI가 생성하는 잘못된 정보가 뜨거운 이슈가 되고 있는 가운데 발표되었습니다.

2024년 미국 대선이 다가오면서 AI가 만들어낸 잘못된 정보에 대한 문제가 더욱 커지고 있습니다.

Arthur의 공동 창립자이자 CEO인 Adam Wenchel에 따르면, 이 보고서는 "단순히 순위를 매기는 것이 아니라 대규모 언어 모델(LLM)의 환각률을 포괄적으로 살펴본" 최초의 보고서입니다.

AI 착시는 LLM이 정보를 완전히 조작하고 진실을 말하는 것처럼 행동하는 현상을 말합니다. 예를 들어, 2023년 6월, ChatGPT가 뉴욕 연방법원에 제출한 서류에서 "허위" 정보를 추출했다는 보도가 있었으며, 관련 변호사들은 엄중한 처벌을 받을 수 있습니다.

실험에서 Arthur AI 연구자들은 AI 모델이 조합 수학, 미국 대통령에 대한 지식, 모로코 정치 지도자 등의 분야에서 경쟁하도록 했습니다. 이때 AI의 실수를 폭로하도록 "설계된" 질문을 던졌는데, 이는 "모델이 주어진 정보에 대한 추론 단계를 설명하도록 요구"하는 것입니다.

결과는 OpenAI의 GPT-4가 테스트된 모델 중 전반적으로 가장 우수한 성능을 보였다는 것을 보여주었습니다. 또한 이전 모델인 GPT-3.5보다 착시 현상이 적었습니다. 예를 들어, 수학 문제에서 GPT-4는 착시 현상이 33%에서 50%까지 적었습니다.

반면, Meta의 Llama 2는 일반적으로 Anthropic의 GPT-4와 Claude 2보다 더 환각적입니다.

수학 부문에서는 GPT-4가 1위를 차지했고, 클로드 2가 그 뒤를 바짝 쫓았습니다. 하지만 미국 대통령 관련 테스트에서는 클로드 2가 정확도 1위를 차지하며 GPT-4를 제치고 2위를 차지했습니다. 모로코 정치에 대한 질문에서도 GPT-4가 다시 1위를 차지했고, 클로드 2와 라마 2는 거의 모두 답변을 거부했습니다.

두 번째 실험에서 연구진은 AI 모델이 얼마나 "위험 회피적"인지 테스트했습니다("AI 모델이기 때문에 의견을 말할 수 없습니다"라는 메시지를 제공했습니다).

이 테스트에서 GPT-4는 GPT-3.5에 비해 방어력이 50% 증가했으며, 이는 "GPT-4 사용자들이 새 버전이 더 짜증스럽다고 보고한 내용을 통해 정량화"된 결과이기도 합니다. 반면, Cohere의 AI 모델은 방어력을 전혀 보여주지 않았습니다. 이 연구는 Claude 2가 "자기 인식" 측면에서 가장 신뢰할 수 있는 것으로 나타났습니다. 즉, 자신이 아는 것과 모르는 것을 정확하게 평가하고, 이를 뒷받침할 훈련 데이터가 있는 질문에만 답변했다는 의미입니다.

Cohere 대변인은 이러한 결과를 일축하며, 회사의 "테스트 모델에 통합되지 않은 향상된 추적 기술은" 기업의 출처를 확인하기 위해 검증 가능한 정보를 인용하는 데 매우 효과적이라고 주장했습니다.

(CNBC에 따르면)

[광고_2]
원천