Følgelig oppnådde selv den best ytende konfigurasjonen av kunstig intelligens-modellen de testet, OpenAIs GPT-4-Turbo, bare en riktig svarprosent på 79 % til tross for at de leste hele profilen og ofte «hallusinerte» uvirkelige tall eller hendelser.
«Den slags ytelsesrate er fullstendig uakseptabel», sa Anand Kannappan, medgründer av Patronus AI. «Den riktige svarraten må være mye høyere for å være automatisert og produksjonsklar.»
Funnene fremhever noen av utfordringene AI-modeller står overfor når store selskaper, spesielt i sterkt regulerte bransjer som finans, ønsker å integrere avansert teknologi i driften, enten det er innen kundeservice eller forskning.
Finansielle data-"illusjon"
Evnen til raskt å trekke ut nøkkeltall og utføre analyse av regnskap har blitt sett på som en av de mest lovende bruksområdene for chatboter siden ChatGPT ble utgitt sent i fjor.
SEC-innleveringer inneholder viktige data, og hvis en bot kan oppsummere nøyaktig eller raskt svare på spørsmål om innholdet, kan det gi brukerne et fortrinn i den konkurransepregede finansbransjen.
I løpet av det siste året har Bloomberg LP utviklet sin egen AI-modell for økonomiske data, og professorer ved handelshøyskoler har studert om ChatGPT kan analysere økonomiske overskrifter.
I mellomtiden utvikler JPMorgan også et AI-drevet automatisert investeringsverktøy. En fersk prognose fra McKinsey sa at generativ AI kan styrke banknæringen med billioner av dollar i året.
Men det er fortsatt en lang vei å gå. Da Microsoft først lanserte Bing Chat med OpenAIs GPT, brukte de chatboten til å raskt oppsummere pressemeldinger om resultater. Observatører la raskt merke til at tallene AI-en spyttet ut var skjeve, eller til og med oppdiktede.
Samme data, forskjellige svar
En del av utfordringen med å innlemme LLM i virkelige produkter er at algoritmer er ikke-deterministiske, noe som betyr at de ikke er garantert å produsere de samme resultatene gitt de samme inputtene. Dette betyr at selskaper må utføre strengere testing for å sikre at AI fungerer som det skal, ikke avviker fra temaet og leverer pålitelige resultater.
Patronus AI bygde et sett med mer enn 10 000 spørsmål og svar hentet fra SEC-innleveringer fra store børsnoterte selskaper, kalt FinanceBench. Datasettet inneholder de riktige svarene samt den nøyaktige plasseringen i en gitt fil for å finne dem.
Ikke alle svar kan hentes direkte fra teksten, og noen spørsmål krever beregning eller lett resonnement.
Delprøven med 150 spørsmål involverte fire LLM-modeller: OpenAIs GPT-4 og GPT-4-Turbo, Anthropics Claude 2 og Metas Llama 2.
Som et resultat oppnådde GPT-4-Turbo, da de fikk tilgang til de underliggende SEC-innleveringene, bare en nøyaktighet på 85 % (sammenlignet med 88 % feil svar når de ikke fikk tilgang til dataene), til tross for at de hadde en menneskelig musepeker på den nøyaktige teksten slik at AI-en kunne finne svaret.
Llama 2, en åpen kildekode-modell for kunstig intelligens utviklet av Meta, hadde det høyeste antallet «hallusinasjoner», med feil svar i 70 % av tilfellene og riktig svar bare i 19 % av tilfellene når de fikk tilgang til en del av de underliggende dokumentene.
Anthropics Claude 2 presterte bra med en «lang kontekst», der nesten hele den relevante SEC-innleveringen er inkludert sammen med spørsmålet. Den klarte å svare på 75 % av spørsmålene, svarte feil på 21 % og nektet å svare på 3 %. GPT-4-Turbo presterte også bra med en lang kontekst, og svarte riktig på 79 % av spørsmålene og svarte feil på 17 % av dem.
(Ifølge CNBC)
Big Techs kappløp om å investere i AI-oppstartsbedrifter
AI-teknologi revolusjonerer e-handelsoppstartsbedrifter
AI lykkes med å gjøre menneskelige tanker om til realistiske bilder for første gang
[annonse_2]
Kilde






Kommentar (0)