V souladu s tím i nejlépe testovaná konfigurace modelu umělé inteligence, GPT-4-Turbo od OpenAI, dosáhla pouze 79% míry správných odpovědí, a to i přes přečtení celého profilu a časté „halucinace“ neskutečných čísel nebo událostí.
„Taková míra výkonu je naprosto nepřijatelná,“ řekl Anand Kannappan, spoluzakladatel společnosti Patronus AI. „Míra správných odpovědí musí být mnohem vyšší, aby byla automatizovaná a připravená pro produkční prostředí.“
Zjištění zdůrazňují některé z výzev, kterým čelí modely umělé inteligence, jelikož velké společnosti, zejména v silně regulovaných odvětvích, jako jsou finance, se snaží začlenit pokročilé technologie do svého provozu, ať už v oblasti zákaznických služeb nebo výzkumu.
Finanční data „iluze“
Schopnost rychle extrahovat klíčová čísla a provádět analýzu finančních výkazů je od vydání ChatGPT koncem loňského roku považována za jednu z nejslibnějších aplikací pro chatboty.
Podání SEC obsahují důležitá data a pokud bot dokáže přesně shrnout nebo rychle odpovědět na otázky týkající se jejich obsahu, mohl by uživatelům poskytnout výhodu v konkurenčním finančním odvětví.
Během uplynulého roku vyvinula společnost Bloomberg LP vlastní model umělé inteligence pro finanční data a profesoři obchodních škol zkoumali, zda ChatGPT dokáže analyzovat finanční titulky.
Mezitím JPMorgan vyvíjí také automatizovaný investiční nástroj založený na umělé inteligenci. Nedávná prognóza společnosti McKinsey uvádí, že generativní umělá inteligence by mohla bankovní sektor posílit o biliony dolarů ročně.
Ale je před námi ještě dlouhá cesta. Když Microsoft poprvé spustil Bing Chat s GPT od OpenAI, použil chatbota k rychlému shrnutí tiskových zpráv o výsledcích hospodaření. Pozorovatelé si rychle všimli, že čísla, která umělá inteligence chrlila, byla zkreslená nebo dokonce vykonstruovaná.
Stejná data, různé odpovědi
Součástí výzvy začlenění LLM do reálných produktů je, že algoritmy nejsou deterministické, což znamená, že není zaručeno, že při stejných vstupech budou produkovat stejné výsledky. To znamená, že společnosti musí provádět přísnější testování, aby se zajistilo, že umělá inteligence funguje správně, neodchyluje se od tématu a poskytuje spolehlivé výsledky.
Společnost Patronus AI sestavila sadu více než 10 000 otázek a odpovědí z dokumentů SEC od velkých veřejně obchodovaných společností s názvem FinanceBench. Datová sada obsahuje správné odpovědi a také přesné umístění v daném souboru, kde je lze najít.
Ne všechny odpovědi lze převzít přímo z textu a některé otázky vyžadují výpočet nebo lehké uvažování.
Test se 150 otázkami zahrnoval čtyři modely LLM: GPT-4 a GPT-4-Turbo od OpenAI, Claude 2 od Anthropic a Llama 2 od Meta.
V důsledku toho GPT-4-Turbo, když mu byl poskytnut přístup k podkladovým dokumentům SEC, dosáhl míry přesnosti pouze 85 % (ve srovnání s 88 % nesprávných odpovědí bez přístupu k datům), a to i přesto, že měl lidský ukazatel myši na přesný text, aby umělá inteligence mohla najít odpověď.
Llama 2, open-source model umělé inteligence vyvinutý společností Meta, měl nejvyšší počet „halucinací“, když v 70 % případů odpovídal nesprávně a správně pouze v 19 % případů, když mu byl poskytnut přístup k části podkladových dokumentů.
Test Claude 2 od Anthropic si vedl dobře s „dlouhým kontextem“, v němž byl spolu s otázkou zahrnut téměř celý relevantní dokument SEC. Dokázal odpovědět na 75 % položených otázek, nesprávně odpověděl na 21 % a odmítl odpovědět na 3 %. Test GPT-4-Turbo si také vedl dobře s dlouhým kontextem, správně odpověděl na 79 % otázek a nesprávně na 17 % z nich.
(Podle CNBC)
Velké technologické společnosti se předhánějí v investicích do startupů zabývajících se umělou inteligencí
Technologie umělé inteligence způsobuje revoluci v e-commerce startupech
Umělá inteligence poprvé úspěšně promění lidské myšlenky v realistické obrazy
Zdroj
Komentář (0)