Prin urmare, chiar și cea mai performantă configurație a modelului de inteligență artificială testată, GPT-4-Turbo de la OpenAI, a obținut o rată de răspuns corect de doar 79%, în ciuda citirii întregului profil și a halucinării unor cifre sau evenimente ireale.
„O astfel de rată de performanță este complet inacceptabilă”, a declarat Anand Kannappan, cofondator al Patronus AI. „Rata de răspunsuri corecte trebuie să fie mult mai mare pentru a fi automatizat și pregătit pentru producție.”
Constatările evidențiază unele dintre provocările cu care se confruntă modelele de inteligență artificială, deoarece companiile mari, în special din industrii puternic reglementate, precum finanțele, caută să încorporeze tehnologii avansate în operațiunile lor, fie în serviciul clienți, fie în cercetare.
„Iluzia” datelor financiare
Capacitatea de a extrage rapid cifre cheie și de a efectua analize ale situațiilor financiare a fost considerată una dintre cele mai promițătoare aplicații pentru chatboți de la lansarea ChatGPT la sfârșitul anului trecut.
Documentele depuse la SEC conțin date importante, iar dacă un bot poate rezuma cu exactitate sau răspunde rapid la întrebări despre conținutul lor, ar putea oferi utilizatorilor un avantaj în industria financiară competitivă.
În ultimul an, Bloomberg LP și-a dezvoltat propriul model de inteligență artificială pentru datele financiare, iar profesorii de la școlile de afaceri au studiat dacă ChatGPT poate analiza știrile financiare.
Între timp, JPMorgan dezvoltă și un instrument automat de investiții bazat pe inteligență artificială. O prognoză recentă a McKinsey a arătat că inteligența artificială generativă ar putea stimula industria bancară cu trilioane de dolari pe an.
Dar mai este mult de parcurs. Când Microsoft a lansat pentru prima dată Bing Chat cu GPT-ul OpenAI, a folosit chatbot-ul pentru a rezuma rapid comunicatele de presă privind câștigurile. Observatorii au observat rapid că cifrele publicate de inteligența artificială erau denaturate sau chiar fabricate.
Aceleași date, răspunsuri diferite
O parte a provocării integrării LLM în produse din lumea reală este că algoritmii sunt nedeterminiști, ceea ce înseamnă că nu există garanția că vor produce aceleași rezultate având aceleași date de intrare. Aceasta înseamnă că firmele trebuie să efectueze teste mai riguroase pentru a se asigura că IA funcționează corect, nu se abate de la subiect și oferă rezultate fiabile.
Patronus AI a construit un set de peste 10.000 de întrebări și răspunsuri extrase din documentele SEC depuse de companii mari listate la bursă, numit FinanceBench. Setul de date include răspunsurile corecte, precum și locația exactă din orice fișier pentru a le găsi.
Nu toate răspunsurile pot fi preluate direct din text, iar unele întrebări necesită calcule sau raționament superficial.
Testul cu subset de 150 de întrebări a implicat patru modele LLM: GPT-4 și GPT-4-Turbo de la OpenAI, Claude 2 de la Anthropic și Llama 2 de la Meta.
Prin urmare, GPT-4-Turbo, atunci când i s-a oferit acces la documentele SEC subiacente, a obținut o rată de precizie de doar 85% (comparativ cu 88% de răspunsuri greșite atunci când nu i s-a oferit acces la date), în ciuda faptului că avea un indicator de mouse uman către textul exact pentru ca inteligența artificială să găsească răspunsul.
Llama 2, un model de inteligență artificială open-source dezvoltat de Meta, a avut cel mai mare număr de „halucinații”, răspunzând greșit în 70% din cazuri și corect doar în 19% din cazuri, atunci când i s-a oferit acces la o parte din documentele subiacente.
Claude 2 de la Anthropic a avut performanțe bune atunci când i s-a oferit un „context lung”, în care aproape întreaga documentație SEC relevantă este inclusă împreună cu întrebarea. A reușit să răspundă la 75% din întrebările puse, răspunzând greșit la 21% și refuzând să răspundă la 3%. GPT-4-Turbo a avut, de asemenea, performanțe bune și cu un context lung, răspunzând corect la 79% dintre întrebări și răspunzând greșit la 17% dintre acestea.
(Conform CNBC)
Cursa marilor companii tehnologice pentru a investi în startup-uri de inteligență artificială
Tehnologia AI revoluționează startup-urile din comerțul electronic
Inteligența artificială transformă cu succes gândurile umane în imagini realiste, pentru prima dată
Sursă






Comentariu (0)