Dessa forma, mesmo a configuração de modelo de inteligência artificial de melhor desempenho que eles testaram, o GPT-4-Turbo da OpenAI, ainda atingiu apenas 79% de taxa de respostas corretas, apesar de lerem o perfil inteiro e frequentemente terem tido "alucinações" com números ou eventos irreais.
"Esse tipo de taxa de desempenho é completamente inaceitável", disse Anand Kannappan, cofundador da Patronus AI. "A taxa de acertos precisa ser muito maior para ser automatizada e pronta para produção."
As descobertas destacam alguns dos desafios enfrentados pelos modelos de IA, já que grandes empresas, especialmente em setores altamente regulamentados como o financeiro, buscam incorporar tecnologia avançada em suas operações, seja no atendimento ao cliente ou na pesquisa.
"Ilusão" de dados financeiros
A capacidade de extrair rapidamente números importantes e realizar análises de demonstrações financeiras tem sido vista como uma das aplicações mais promissoras para chatbots desde que o ChatGPT foi lançado no final do ano passado.
Os registros da SEC contêm dados importantes e, se um bot puder resumir com precisão ou responder rapidamente a perguntas sobre seus conteúdos, isso poderá dar aos usuários uma vantagem no competitivo setor financeiro.
No ano passado, a Bloomberg LP desenvolveu seu próprio modelo de IA para dados financeiros, e professores de escolas de negócios estudaram se o ChatGPT pode analisar manchetes financeiras.
Enquanto isso, o JPMorgan também está desenvolvendo uma ferramenta de investimento automatizada com tecnologia de IA. Uma previsão recente da McKinsey indicou que a IA generativa poderia impulsionar o setor bancário em trilhões de dólares por ano.
Mas ainda há um longo caminho a percorrer. Quando a Microsoft lançou o Bing Chat com o GPT da OpenAI, utilizou o chatbot para resumir rapidamente os comunicados de imprensa sobre lucros. Observadores rapidamente notaram que os números apresentados pela IA eram distorcidos ou até mesmo inventados.
Mesmos dados, respostas diferentes
Parte do desafio de incorporar o LLM em produtos do mundo real é que os algoritmos não são determinísticos, o que significa que não há garantia de que produzirão os mesmos resultados com as mesmas informações. Isso significa que as empresas precisam realizar testes mais rigorosos para garantir que a IA esteja funcionando corretamente, sem fugir do tema e entregando resultados confiáveis.
A Patronus AI criou um conjunto de mais de 10.000 perguntas e respostas extraídas de documentos arquivados na SEC de grandes empresas de capital aberto, chamado FinanceBench. O conjunto de dados inclui as respostas corretas, bem como a localização exata em cada arquivo para encontrá-las.
Nem todas as respostas podem ser tiradas diretamente do texto e algumas perguntas exigem cálculo ou raciocínio leve.
O subconjunto de 150 perguntas envolveu quatro modelos LLM: GPT-4 e GPT-4-Turbo da OpenAI, Claude 2 da Anthropic e Llama 2 da Meta.
Como resultado, o GPT-4-Turbo, quando teve acesso aos registros subjacentes da SEC, atingiu apenas uma taxa de precisão de 85% (comparado a 88% quando não teve acesso aos dados), mesmo que um humano tenha apontado o mouse para o texto exato para que a IA encontrasse a resposta.
O Llama 2, um modelo de IA de código aberto desenvolvido pela Meta, teve o maior número de "alucinações", acertando 70% das respostas e errando apenas 19% quando teve acesso a uma parte dos documentos subjacentes.
O Claude 2 da Anthropic teve um bom desempenho quando submetido a um "contexto longo", no qual quase todo o arquivo SEC relevante está incluído junto com a pergunta. Conseguiu responder a 75% das perguntas, respondendo incorretamente a 21% e recusando-se a responder a 3%. O GPT-4-Turbo também teve um bom desempenho com um contexto longo, respondendo corretamente a 79% das perguntas e incorretamente a 17%.
(De acordo com a CNBC)
A corrida das grandes empresas de tecnologia para investir em startups de IA
Tecnologia de IA revoluciona startups de comércio eletrônico
A IA transforma com sucesso pensamentos humanos em imagens realistas pela primeira vez
Fonte
Comentário (0)