Vietnam.vn - Nền tảng quảng bá Việt Nam

4대 AI 모델이 가장 자신 있게 틀리게 대답하는 앱을 찾기 위해 경쟁

VietNamNetVietNamNet21/08/2023

[광고_1]

머신 러닝 모니터링 플랫폼인 Arthur AI의 연구원들은 업계를 선도하는 모델을 테스트한 결과, GPT-4가 수학에서 가장 우수하고, Llama 2는 전반적으로 평균적인 수준을 보였으며, Anthropic의 Claude 2는 한계를 가장 잘 알고 있었고, Cohere AI는 가장 자신 있게 틀린 답을 내놓는 가장 "틀린 생각에 빠진" 모델이라는 타이틀을 차지했습니다.

Arthur AI의 보고서는 2024년 미국 대선이 다가오면서 AI가 생성하는 잘못된 정보가 뜨거운 이슈가 되고 있는 가운데 발표되었습니다.

2024년 미국 대선이 다가오면서 AI가 만들어낸 잘못된 정보 문제가 더욱 심각해지고 있습니다.

Arthur의 공동 창립자이자 CEO인 Adam Wenchel에 따르면, 이 보고서는 "단순히 순위를 매기는 것이 아니라 대규모 언어 모델(LLM)의 환각률을 포괄적으로 살펴본" 최초의 보고서입니다.

AI 환상이란 LLM이 정보를 완전히 조작하고 진실을 말하는 것처럼 행동하는 현상을 말합니다. 예를 들어, 2023년 6월에는 ChatGPT가 뉴욕 연방법원에 제출한 서류에서 "허위" 정보를 인용했으며 관련 변호사들이 엄중한 처벌을 받을 수 있다는 보고가 있었습니다.

실험에서 Arthur AI 연구자들은 AI 모델이 조합 수학, 미국 대통령에 대한 지식, 모로코 정치 지도자 등의 분야에서 경쟁하도록 했습니다. 이때 AI의 실수를 폭로하도록 "설계된" 질문을 던졌는데, 이는 "모델이 주어진 정보에 대한 추론 단계를 설명하도록 요구"하는 것입니다.

결과에 따르면, OpenAI의 GPT-4가 테스트된 모델 중에서 전반적으로 가장 좋은 성능을 보였습니다. 또한 이전 모델인 GPT-3.5보다 환상도가 낮습니다. 예를 들어, 수학 문제에 대한 GPT-4의 망상 정도는 33~50% 정도 낮았습니다.

반면, Meta의 Llama 2는 일반적으로 Anthropic의 GPT-4와 Claude 2보다 더 환각적입니다.

수학 부문에서는 GPT-4가 1위를 차지했고, 클로드 2가 그 뒤를 이었습니다. 하지만 미국 대통령 테스트에서는 클로드 2가 정확도 부문에서 1위를 차지하면서 GPT-4를 누르고 2위를 차지했습니다. 모로코 정치에 대한 질문에는 GPT-4가 다시 한 번 우위를 점했고, 클로드 2와 라마 2는 거의 대답하지 않기로 했습니다.

두 번째 실험에서 연구진은 AI 모델이 얼마나 "위험 회피적"인지 테스트했습니다("AI 모델이기 때문에 의견을 말할 수 없습니다"라는 메시지를 제공했습니다).

이 테스트에 따르면 GPT-4는 GPT-3.5에 비해 보호 기능이 상대적으로 50% 향상되었으며, 이는 "새로운 버전이 더 성가신다는 GPT-4 사용자들의 진술을 통해 정량화"된 결과이기도 합니다. 반면, 코히어의 AI 모델은 어떠한 반응도 막기 위해 아무런 움직임도 취하지 않습니다. 연구에 따르면 클로드 2는 '자기 인식' 측면에서 가장 신뢰할 수 있는 것으로 나타났습니다. 즉, 자신이 아는 것과 모르는 것을 정확하게 평가하고, 이를 뒷받침하는 훈련 데이터가 있는 질문에만 답한다는 의미입니다.

Cohere 대변인은 이러한 결과를 일축하며, 회사의 "테스트 모델에 통합되지 않은 향상된 추적 기술은" 기업의 출처를 확인하기 위해 검증 가능한 정보를 인용하는 데 매우 효과적이라고 주장했습니다.

(CNBC에 따르면)


[광고_2]
원천

댓글 (0)

No data
No data

같은 태그

같은 카테고리

하노이 포 레스토랑
카오방의 푸른 산과 푸른 바닷물을 감상하세요
빈딘성의 '나타나고 사라지는' 바다 횡단 산책로 클로즈업
도시. 호치민시는 현대적인 '슈퍼시티'로 성장하고 있습니다.

같은 저자

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품