GPT a výkonné modely umělé inteligence se před tímto testem stále musí „vzdát“.

V souladu s tím i nejlépe testovaná konfigurace modelu umělé inteligence, GPT-4-Turbo od OpenAI, dosáhla pouze 79% míry správných odpovědí, a to i přes přečtení celého profilu a časté „halucinace“ neskutečných čísel nebo událostí.

„Taková míra výkonu je naprosto nepřijatelná,“ řekl Anand Kannappan, spoluzakladatel společnosti Patronus AI. „Míra správných odpovědí musí být mnohem vyšší, aby byla automatizovaná a připravená pro produkční prostředí.“

Zjištění zdůrazňují některé z výzev, kterým čelí modely umělé inteligence, jelikož velké společnosti, zejména v silně regulovaných odvětvích, jako jsou finance, se snaží začlenit pokročilé technologie do svého provozu, ať už v oblasti zákaznických služeb nebo výzkumu.

Finanční data „iluze“

Schopnost rychle extrahovat klíčová čísla a provádět analýzu finančních výkazů je od vydání ChatGPT koncem loňského roku považována za jednu z nejslibnějších aplikací pro chatboty.

Podání SEC obsahují důležitá data a pokud bot dokáže přesně shrnout nebo rychle odpovědět na otázky týkající se jejich obsahu, mohl by uživatelům poskytnout výhodu v konkurenčním finančním odvětví.

obrázek llm 100941414 velký.jpg — Umělá inteligence se potýká s problémy právě ve fázi syntézy dat – v úkolu, kde se od ní očekává největší pomoc lidem.

Během uplynulého roku vyvinula společnost Bloomberg LP vlastní model umělé inteligence pro finanční data a profesoři obchodních škol zkoumali, zda ChatGPT dokáže analyzovat finanční titulky.

Mezitím JPMorgan vyvíjí také automatizovaný investiční nástroj založený na umělé inteligenci. Nedávná prognóza společnosti McKinsey uvádí, že generativní umělá inteligence by mohla bankovní sektor posílit o biliony dolarů ročně.

Ale je před námi ještě dlouhá cesta. Když Microsoft poprvé spustil Bing Chat s GPT od OpenAI, použil chatbota k rychlému shrnutí tiskových zpráv o výsledcích hospodaření. Pozorovatelé si rychle všimli, že čísla, která umělá inteligence chrlila, byla zkreslená nebo dokonce vykonstruovaná.

Stejná data, různé odpovědi

Součástí výzvy začlenění LLM do reálných produktů je, že algoritmy nejsou deterministické, což znamená, že není zaručeno, že při stejných vstupech budou produkovat stejné výsledky. To znamená, že společnosti musí provádět přísnější testování, aby se zajistilo, že umělá inteligence funguje správně, neodchyluje se od tématu a poskytuje spolehlivé výsledky.

Společnost Patronus AI sestavila sadu více než 10 000 otázek a odpovědí z dokumentů SEC od velkých veřejně obchodovaných společností s názvem FinanceBench. Datová sada obsahuje správné odpovědi a také přesné umístění v daném souboru, kde je lze najít.

Ne všechny odpovědi lze převzít přímo z textu a některé otázky vyžadují výpočet nebo lehké uvažování.

Test se 150 otázkami zahrnoval čtyři modely LLM: GPT-4 a GPT-4-Turbo od OpenAI, Claude 2 od Anthropic a Llama 2 od Meta.

V důsledku toho GPT-4-Turbo, když mu byl poskytnut přístup k podkladovým dokumentům SEC, dosáhl míry přesnosti pouze 85 % (ve srovnání s 88 % nesprávných odpovědí bez přístupu k datům), a to i přesto, že měl lidský ukazatel myši na přesný text, aby umělá inteligence mohla najít odpověď.

Llama 2, open-source model umělé inteligence vyvinutý společností Meta, měl nejvyšší počet „halucinací“, když v 70 % případů odpovídal nesprávně a správně pouze v 19 % případů, když mu byl poskytnut přístup k části podkladových dokumentů.

Test Claude 2 od Anthropic si vedl dobře s „dlouhým kontextem“, v němž byl spolu s otázkou zahrnut téměř celý relevantní dokument SEC. Dokázal odpovědět na 75 % položených otázek, nesprávně odpověděl na 21 % a odmítl odpovědět na 3 %. Test GPT-4-Turbo si také vedl dobře s dlouhým kontextem, správně odpověděl na 79 % otázek a nesprávně na 17 % z nich.

(Podle CNBC)

Velké technologické společnosti se předhánějí v investicích do startupů s umělou inteligencí

Nástup technologie umělé inteligence otřásl světem technologií, ale jedna věc zůstává nezměněna – velké technologické společnosti si stále drží absolutní moc.

Technologie umělé inteligence způsobuje revoluci v e-commerce startupech

V konkurenčním prostoru elektronického obchodování dává umělá inteligence startupům příležitost využít technologie k obsluze zákazníků a zefektivnění provozu.

Umělá inteligence poprvé úspěšně promění lidské myšlenky v realistické obrazy

S pomocí technologie umělé inteligence (AI) lze nové objevy ve výzkumu lidského myšlení přirovnat k otevření zcela nového světa v nás samotných.

Velké technologické společnosti se předhánějí v investicích do startupů s umělou inteligencí

Technologie umělé inteligence způsobuje revoluci v e-commerce startupech

Umělá inteligence poprvé úspěšně promění lidské myšlenky v realistické obrazy

Komentář (0)