Följaktligen uppnådde även den bäst presterande artificiella intelligens-konfigurationen som de testade, OpenAI:s GPT-4-Turbo, bara en korrekt svarsfrekvens på 79 % trots att de läste hela profilen och ofta "hallucinerade" overkliga siffror eller händelser.
”Den sortens prestationsnivå är helt oacceptabel”, säger Anand Kannappan, medgrundare av Patronus AI. ”Frekvensen för korrekta svar måste vara mycket högre för att vara automatiserad och produktionsklar.”
Resultaten belyser några av de utmaningar som AI-modeller står inför när stora företag, särskilt i hårt reglerade branscher som finans, vill integrera avancerad teknik i sin verksamhet, oavsett om det gäller kundtjänst eller forskning.
Finansiella data "illusioner"
Möjligheten att snabbt extrahera viktiga siffror och utföra finansiella rapporteringsanalyser har setts som en av de mest lovande tillämpningarna för chatbotar sedan ChatGPT släpptes sent förra året.
SEC-anmälningar innehåller viktig data, och om en bot kan sammanfatta eller snabbt svara på frågor om innehållet kan det ge användarna en fördel i den konkurrensutsatta finansbranschen.
Under det senaste året har Bloomberg LP utvecklat sin egen AI-modell för finansiell data, och professorer vid handelshögskolor har studerat om ChatGPT kan analysera finansiella rubriker.
Samtidigt utvecklar JPMorgan också ett AI-baserat automatiserat investeringsverktyg. Enligt en färsk prognos från McKinsey skulle generativ AI kunna öka banksektorn med biljoner dollar per år.
Men det är fortfarande en lång väg att gå. När Microsoft först lanserade Bing Chat med OpenAI:s GPT, använde de chatboten för att snabbt sammanfatta pressmeddelanden om resultat. Observatörer märkte snabbt att siffrorna som AI:n spottade ur sig var snedvridna, eller till och med påhittade.
Samma data, olika svar
En del av utmaningen med att integrera LLM i verkliga produkter är att algoritmer är icke-deterministiska, vilket innebär att de inte garanteras ge samma resultat givet samma indata. Det innebär att företag måste genomföra mer rigorösa tester för att säkerställa att AI fungerar korrekt, inte avviker från ämnet och levererar tillförlitliga resultat.
Patronus AI byggde en uppsättning med mer än 10 000 frågor och svar hämtade från SEC-rapporter från stora börsnoterade företag, kallade FinanceBench. Datasetet innehåller de korrekta svaren samt den exakta platsen i en given fil för att hitta dem.
Inte alla svar kan hämtas direkt från texten och vissa frågor kräver beräkningar eller lätt resonemang.
Delmängdtestet med 150 frågor omfattade fyra LLM-modeller: OpenAI:s GPT-4 och GPT-4-Turbo, Anthropics Claude 2 och Metas Llama 2.
Som ett resultat uppnådde GPT-4-Turbo, när de fick tillgång till de underliggande SEC-anmälningarna, endast en noggrannhet på 85 % (jämfört med 88 % felaktiga svar när de inte fick tillgång till informationen), trots att de hade en mänsklig muspekare på den exakta texten för att AI:n skulle kunna hitta svaret.
Llama 2, en AI-modell med öppen källkod utvecklad av Meta, hade det högsta antalet "hallucinationer", med felaktiga svar i 70 % av fallen och korrekta svar endast i 19 % av fallen när användaren fick tillgång till en del av de underliggande dokumenten.
Anthropics Claude 2 presterade bra i ett "långt sammanhang", där nästan hela den relevanta SEC-anmälan inkluderades tillsammans med frågan. Den kunde besvara 75 % av de ställda frågorna, svarade felaktigt på 21 % och vägrade att svara på 3 %. GPT-4-Turbo presterade också bra i ett långt sammanhang, med korrekta svar på 79 % av frågorna och felaktiga svar på 17 % av dem.
(Enligt CNBC)
Big Techs kapplöpning om att investera i AI-startups
AI-teknik revolutionerar e-handelsstartups
AI lyckas förvandla mänskliga tankar till realistiska bilder för första gången
[annons_2]
Källa






Kommentar (0)