GPT와 강력한 AI 모델은 이 테스트 전에 아직 '포기'해야 합니다.

[광고_1]

따라서 테스트한 인공지능 모델 중 가장 성능이 좋은 OpenAI의 GPT-4-Turbo조차도 프로필 전체를 읽고 종종 비현실적인 수치나 사건을 "환각"으로 보임에도 불구하고 정답률은 79%에 그쳤습니다.

"그런 수준의 성과는 절대 용납할 수 없습니다."라고 패트로누스 AI의 공동 창립자인 아난드 카나판은 말했습니다. "자동화되고 실제 운영에 적용되려면 정답률이 훨씬 높아야 합니다."

연구 결과는 금융과 같이 규제가 엄격한 산업 분야의 대기업이 고객 서비스나 연구 등 운영에 첨단 기술을 통합하고자 할 때 AI 모델이 직면하는 몇 가지 과제를 강조합니다.

재무 데이터 "환상"

ChatGPT가 작년 말에 출시된 이래로, 주요 숫자를 빠르게 추출하고 재무제표 분석을 수행하는 기능은 챗봇의 가장 유망한 응용 분야 중 하나로 여겨져 왔습니다.

SEC 제출 서류에는 중요한 데이터가 포함되어 있으며, 봇이 해당 내용을 정확하게 요약하거나 질문에 빠르게 답변할 수 있다면 사용자는 경쟁이 치열한 금융 업계에서 우위를 점할 수 있습니다.

llm 이미지 100941414 큰.jpg — AI는 데이터 합성 단계에서 어려움을 겪습니다. 이 단계에서는 인간에게 가장 큰 도움이 될 것으로 기대됩니다.

지난해 Bloomberg LP는 금융 데이터를 위한 자체 AI 모델을 개발했으며, 경영대학원 교수들은 ChatGPT가 금융 헤드라인을 분석할 수 있는지 연구해 왔습니다.

한편, JP모건은 AI 기반 자동 투자 도구도 개발하고 있습니다. 맥킨지의 최근 전망에 따르면, 생성적 AI는 은행업을 연간 수조 달러 규모로 성장시킬 수 있을 것으로 예상됩니다.

하지만 아직 갈 길이 멉니다. 마이크로소프트가 OpenAI의 GPT와 함께 Bing Chat을 처음 출시했을 때, 챗봇을 사용하여 실적 보도자료를 빠르게 요약했습니다. 전문가들은 AI가 내놓는 수치가 왜곡되었거나 심지어 조작된 것이라는 점을 금방 알아챘습니다.

동일한 데이터, 다른 답변

LLM을 실제 제품에 통합하는 데 있어 어려운 점 중 하나는 알고리즘이 비결정적이라는 점입니다. 즉, 동일한 입력을 받았을 때 동일한 결과가 도출된다는 보장이 없습니다. 따라서 기업은 AI가 제대로 작동하고, 주제에서 벗어나지 않으며, 신뢰할 수 있는 결과를 제공하는지 확인하기 위해 더욱 엄격한 테스트를 수행해야 합니다.

패트로누스 AI는 대형 상장 기업의 SEC 제출 서류에서 추출한 10,000개 이상의 질문과 답변으로 구성된 FinanceBench라는 데이터 세트를 구축했습니다. 이 데이터 세트에는 정답과 함께 해당 파일에서 정답을 찾을 수 있는 정확한 위치 정보도 포함되어 있습니다.

모든 답을 글에서 직접 얻을 수 있는 것은 아니며, 일부 질문에는 계산이나 가벼운 추론이 필요합니다.

150개의 질문으로 구성된 하위 집합 테스트에는 OpenAI의 GPT-4와 GPT-4-Turbo, Anthropic의 Claude 2, Meta의 Llama 2 등 4개의 LLM 모델이 포함되었습니다.

그 결과, GPT-4-Turbo는 기본 SEC 제출 자료에 대한 접근 권한을 부여받았을 때, AI가 정답을 찾을 수 있도록 정확한 텍스트에 인간 마우스 포인터를 갖췄음에도 불구하고 85%의 정확도(데이터 접근 권한이 부여되지 않았을 때는 88%의 오답률)만 달성했습니다.

Meta가 개발한 오픈소스 AI 모델인 Llama 2는 "환각"이 가장 많았으며, 기본 문서의 일부에 대한 접근 권한이 주어졌을 때 70%의 시간 동안 틀리게 대답했고, 단 19%의 시간 동안만 올바르게 대답했습니다.

Anthropic의 Claude 2는 관련 SEC 제출 자료의 거의 전체가 질문과 함께 포함된 "긴 맥락"에서 좋은 성과를 보였습니다. 제시된 질문의 75%에 답변했고, 21%는 오답, 3%는 답변을 거부했습니다. GPT-4-Turbo 또한 긴 맥락에서 좋은 성과를 보였으며, 질문의 79%에 정답을, 17%에 오답을 기록했습니다.

(CNBC에 따르면)