Zelfs de best presterende configuratie voor kunstmatige intelligentie die ze testten, GPT-4-Turbo van OpenAI, behaalde nog steeds slechts een percentage van 79% correcte antwoorden, ondanks het feit dat het hele profiel werd gelezen en er vaak "hallucinaties" plaatsvonden van onwerkelijke cijfers of gebeurtenissen.

"Zo'n prestatiepercentage is volstrekt onacceptabel", aldus Anand Kannappan, medeoprichter van Patronus AI. "Het percentage correcte antwoorden moet veel hoger liggen om geautomatiseerd en productieklaar te zijn."

De bevindingen benadrukken een aantal uitdagingen waarmee AI-modellen te maken krijgen wanneer grote bedrijven, met name in sterk gereguleerde sectoren zoals de financiële sector, geavanceerde technologie in hun bedrijfsvoering willen integreren, of het nu gaat om klantenservice of onderzoek.

Financiële data "illusie"

De mogelijkheid om snel belangrijke cijfers te extraheren en financiële analyses uit te voeren, wordt sinds de introductie van ChatGPT eind vorig jaar gezien als een van de meestbelovende toepassingen voor chatbots.

SEC-documenten bevatten belangrijke gegevens en als een bot de inhoud ervan nauwkeurig kan samenvatten of er snel vragen over kan beantwoorden, kan dat gebruikers een voorsprong geven in de competitieve financiële sector.

llm afbeelding 100941414 groot.jpg
AI heeft het juist moeilijk in de fase van datasynthese: juist bij die taak zou AI de mens het meest moeten helpen.

Het afgelopen jaar heeft Bloomberg LP een eigen AI-model voor financiële gegevens ontwikkeld en hebben professoren van business schools onderzocht of ChatGPT financiële krantenkoppen kan analyseren.

Ondertussen ontwikkelt JPMorgan ook een AI-gestuurde, geautomatiseerde beleggingstool. Een recente voorspelling van McKinsey voorspelt dat generatieve AI de bankensector met biljoenen dollars per jaar zou kunnen stimuleren.

Maar er is nog een lange weg te gaan. Toen Microsoft Bing Chat voor het eerst lanceerde met OpenAI's GPT, gebruikte het de chatbot om persberichten over de winstcijfers snel samen te vatten. Waarnemers merkten al snel dat de cijfers die de AI uitspuwde, vertekend of zelfs verzonnen waren.

Dezelfde gegevens, verschillende antwoorden

Een deel van de uitdaging bij het integreren van LLM in producten uit de praktijk is dat algoritmen niet-deterministisch zijn. Dit betekent dat er geen garantie is dat ze dezelfde resultaten opleveren met dezelfde input. Dit betekent dat bedrijven strengere tests moeten uitvoeren om te garanderen dat AI correct werkt, niet afdwaalt en betrouwbare resultaten oplevert.

Patronus AI heeft een set van meer dan 10.000 vragen en antwoorden samengesteld, afkomstig uit SEC-documenten van grote beursgenoteerde bedrijven, genaamd FinanceBench. De dataset bevat de juiste antwoorden en de exacte locatie in een bepaald bestand om ze te vinden.

Niet alle antwoorden kunnen direct uit de tekst worden gehaald en bij sommige vragen is berekening of licht redeneren vereist.

De subset van 150 vragen omvatte vier LLM-modellen: OpenAI's GPT-4 en GPT-4-Turbo, Anthropic's Claude 2 en Meta's Llama 2.

Als gevolg hiervan kon GPT-4-Turbo, toen het toegang kreeg tot de onderliggende SEC-documenten, slechts een nauwkeurigheidspercentage van 85% behalen (vergeleken met 88% onjuiste antwoorden als het bedrijf geen toegang tot de gegevens had), ondanks dat er een menselijke muisaanwijzer naar de exacte tekst stond waarmee de AI het antwoord kon vinden.

Llama 2, een open-source AI-model ontwikkeld door Meta, had het hoogste aantal 'hallucinaties': in 70% van de gevallen werden vragen fout beantwoord en slechts in 19% van de gevallen werden vragen correct beantwoord toen toegang werd gegeven tot een deel van de onderliggende documenten.

Claude 2 van Anthropic presteerde goed in een "lange context", waarin bijna de volledige relevante SEC-documentatie samen met de vraag werd opgenomen. Claude 2 was in staat om 75% van de gestelde vragen te beantwoorden, 21% foutief te beantwoorden en 3% weigerde te beantwoorden. GPT-4-Turbo presteerde ook goed in een lange context, met 79% correct en 17% foutief.

(Volgens CNBC)

De race van Big Tech om te investeren in AI-startups

De race van Big Tech om te investeren in AI-startups

De opkomst van AI-technologie heeft de techwereld geschokt, maar één ding blijft onveranderd: Big Tech heeft nog steeds absolute macht.
AI-technologie zorgt voor een revolutie in e-commerce startups

AI-technologie zorgt voor een revolutie in e-commerce startups

In de competitieve e-commercemarkt biedt AI startups de kans om technologie in te zetten om klanten te bedienen en hun bedrijfsvoering te stroomlijnen.
AI slaagt er voor het eerst in om menselijke gedachten om te zetten in realistische beelden

AI slaagt er voor het eerst in om menselijke gedachten om te zetten in realistische beelden

Met behulp van kunstmatige intelligentie (AI) kunnen nieuwe ontdekkingen in het onderzoek naar het menselijk denken worden vergeleken met het openen van een compleet nieuwe wereld in onszelf.