Consequentemente, mesmo a configuração de modelo de inteligência artificial com melhor desempenho testada, o GPT-4-Turbo da OpenAI, atingiu uma taxa de acerto de apenas 79%, apesar de ler todo o perfil e frequentemente "alucinar" figuras ou eventos irreais.

“Esse tipo de taxa de desempenho é completamente inaceitável”, disse Anand Kannappan, cofundador da Patronus AI. “A taxa de acertos precisa ser muito maior para que a automação esteja pronta para produção.”

Os resultados destacam alguns dos desafios enfrentados pelos modelos de IA, à medida que grandes empresas, principalmente em setores altamente regulamentados como o financeiro, buscam incorporar tecnologia avançada em suas operações, seja no atendimento ao cliente ou na pesquisa.

"Ilusão" de dados financeiros

A capacidade de extrair rapidamente números-chave e realizar análises de demonstrações financeiras tem sido vista como uma das aplicações mais promissoras para chatbots desde o lançamento do ChatGPT no final do ano passado.

Os documentos da SEC contêm dados importantes e, se um bot puder resumir com precisão ou responder rapidamente a perguntas sobre seu conteúdo, poderá dar aos usuários uma vantagem no competitivo setor financeiro.

imagem llm 100941414 grande.jpg
A IA encontra dificuldades logo na fase de síntese de dados – a tarefa em que se espera que ela mais auxilie os humanos.

Ao longo do último ano, a Bloomberg LP desenvolveu seu próprio modelo de IA para dados financeiros, e professores de escolas de negócios têm estudado se o ChatGPT consegue analisar manchetes financeiras.

Enquanto isso, o JPMorgan também está desenvolvendo uma ferramenta de investimento automatizada com inteligência artificial. Uma previsão recente da McKinsey afirmou que a IA generativa pode impulsionar o setor bancário em trilhões de dólares por ano.

Mas ainda há um longo caminho a percorrer. Quando a Microsoft lançou o Bing Chat com o GPT da OpenAI, usou o chatbot para resumir rapidamente comunicados de imprensa sobre resultados financeiros. Observadores logo perceberam que os números apresentados pela IA eram distorcidos, ou até mesmo fabricados.

Os mesmos dados, respostas diferentes.

Parte do desafio de incorporar a Aprendizagem Baseada em Aprendizagem (LLM) em produtos do mundo real reside no fato de que os algoritmos são não determinísticos, ou seja, não há garantia de que produzirão os mesmos resultados com as mesmas entradas. Isso significa que as empresas precisam realizar testes mais rigorosos para garantir que a IA esteja funcionando corretamente, não se desvie do assunto e forneça resultados confiáveis.

A Patronus AI criou um conjunto de mais de 10.000 perguntas e respostas extraídas de documentos da SEC de grandes empresas de capital aberto, chamado FinanceBench. O conjunto de dados inclui as respostas corretas, bem como a localização exata em cada arquivo para encontrá-las.

Nem todas as respostas podem ser retiradas diretamente do texto e algumas questões exigem cálculos ou raciocínio simples.

O teste de subconjunto de 150 perguntas envolveu quatro modelos LLM: GPT-4 e GPT-4-Turbo da OpenAI, Claude 2 da Anthropic e Llama 2 da Meta.

Como resultado, o GPT-4-Turbo, ao ter acesso aos documentos originais da SEC, atingiu uma taxa de precisão de apenas 85% (em comparação com 88% de respostas incorretas quando não teve acesso aos dados), apesar de ter um cursor humano posicionado exatamente sobre o texto para que a IA encontrasse a resposta.

O Llama 2, um modelo de IA de código aberto desenvolvido pela Meta, apresentou o maior número de "alucinações", respondendo incorretamente em 70% das vezes e corretamente em apenas 19% das vezes quando teve acesso a uma parte dos documentos subjacentes.

O Claude 2 da Anthropic teve um bom desempenho quando recebeu um "contexto longo", no qual quase todo o documento relevante da SEC é incluído junto com a pergunta. Ele conseguiu responder a 75% das perguntas feitas, respondendo incorretamente a 21% e se recusando a responder a 3%. O GPT-4-Turbo também teve um bom desempenho com um contexto longo, respondendo corretamente a 79% das perguntas e incorretamente a 17%.

(Segundo a CNBC)

A corrida das grandes empresas de tecnologia para investir em startups de IA

A corrida das grandes empresas de tecnologia para investir em startups de IA

O advento da tecnologia de IA abalou o mundo da tecnologia, mas uma coisa permanece inalterada: as grandes empresas de tecnologia ainda detêm o poder absoluto.
A tecnologia de IA revoluciona as startups de comércio eletrônico.

A tecnologia de IA revoluciona as startups de comércio eletrônico.

No competitivo mercado de comércio eletrônico, a IA está dando às startups a oportunidade de alavancar a tecnologia para atender os clientes e otimizar as operações.
Pela primeira vez, a inteligência artificial consegue transformar pensamentos humanos em imagens realistas.

Pela primeira vez, a inteligência artificial consegue transformar pensamentos humanos em imagens realistas.

Com o auxílio da tecnologia de inteligência artificial (IA), as novas descobertas na pesquisa sobre o pensamento humano podem ser comparadas à abertura de um mundo totalmente novo dentro de nós.