Ennek megfelelően még a tesztelt legjobban teljesítő mesterséges intelligencia modellkonfiguráció, az OpenAI GPT-4-Turbo konfigurációja is csak 79%-os helyes válaszadási arányt ért el annak ellenére, hogy elolvasták a teljes profilt, és gyakran „hallucináltak” valótlan számokat vagy eseményeket.

„Ez a teljesítményarány teljesen elfogadhatatlan” – mondta Anand Kannappan, a Patronus AI társalapítója. „A helyes válaszok arányának sokkal magasabbnak kell lennie ahhoz, hogy automatizált és éles üzembe helyezhető legyen.”

Az eredmények rávilágítanak azokra a kihívásokra, amelyekkel a mesterséges intelligencia modelljei szembesülnek, mivel a nagyvállalatok, különösen az olyan erősen szabályozott iparágakban, mint a pénzügy, igyekeznek fejlett technológiát beépíteni működésükbe, legyen szó akár az ügyfélszolgálatról, akár a kutatásról.

Pénzügyi adatok "illúziója"

A ChatGPT tavaly év végi megjelenése óta a chatbotok egyik legígéretesebb alkalmazásának tekintik a kulcsfontosságú számok gyors kinyerésének és a pénzügyi kimutatások elemzésének képességét.

Az SEC-bejelentések fontos adatokat tartalmaznak, és ha egy bot pontosan össze tudja foglalni vagy gyorsan meg tudja válaszolni a tartalmukkal kapcsolatos kérdéseket, az előnyt jelenthet a felhasználóknak a versenyképes pénzügyi szektorban.

llm kép 100941414 nagy.jpg
A mesterséges intelligencia már az adatszintézis szakaszában is nehézségekkel küzd – abban a feladatban, ahol várhatóan a leginkább segíteni fogja az embereket.

Az elmúlt évben a Bloomberg LP kifejlesztette saját mesterséges intelligencia modelljét pénzügyi adatokhoz, és az üzleti egyetemek professzorai azt vizsgálták, hogy a ChatGPT képes-e elemezni a pénzügyi híreket.

Eközben a JPMorgan egy mesterséges intelligenciával működő automatizált befektetési eszközt is fejleszt. A McKinsey nemrégiben közzétett előrejelzése szerint a generatív mesterséges intelligencia évi több billió dollárral növelheti a bankszektort.

De még hosszú út áll előttünk. Amikor a Microsoft először indította el a Bing Chatet az OpenAI GPT-jével, a chatbotot arra használta, hogy gyorsan összefoglalja a bevételi sajtóközleményeket. A megfigyelők gyorsan észrevették, hogy a mesterséges intelligencia által közölt számok torzítottak, vagy akár kitaláltak voltak.

Ugyanazok az adatok, különböző válaszok

Az LLM valós termékekbe való beépítésének egyik kihívása, hogy az algoritmusok nem determinisztikusak, ami azt jelenti, hogy ugyanazon bemenetek mellett nem garantált, hogy ugyanazt az eredményt produkálják. Ez azt jelenti, hogy a vállalatoknak szigorúbb tesztelést kell végezniük annak biztosítása érdekében, hogy a mesterséges intelligencia megfelelően működjön, ne térjen el a témától, és megbízható eredményeket szolgáltasson.

A Patronus AI több mint 10 000 kérdésből és válaszból álló készletet épített fel nagy, tőzsdén jegyzett vállalatok SEC-bejelentései alapján, FinanceBench néven. Az adathalmaz tartalmazza a helyes válaszokat, valamint a pontos helyet az adott fájlban, ahol megtalálhatók.

Nem minden válasz olvasható ki közvetlenül a szövegből, és néhány kérdés számítást vagy könnyű érvelést igényel.

A 150 kérdéses részhalmazteszt négy LLM modellt tartalmazott: az OpenAI GPT-4 és GPT-4-Turbo modelljeit, az Anthropic Claude 2 modelljét, valamint a Meta Llama 2 modelljét.

Ennek eredményeként a GPT-4-Turbo, amikor hozzáférést kapott az alapul szolgáló SEC-bejelentésekhez, csak 85%-os pontosságot ért el (szemben a 88%-os helytelen válaszaránnyal, amikor nem kapott hozzáférést az adatokhoz), annak ellenére, hogy egy emberi egérmutató állt a pontos szöveg felett, hogy a mesterséges intelligencia megtalálja a választ.

A Meta által fejlesztett nyílt forráskódú mesterséges intelligencia modell, a Llama 2, mutatta a legtöbb „hallucinációt”, az esetek 70%-ában helytelenül válaszolt, és csak az esetek 19%-ában adott helyes választ, amikor hozzáférést kapott az alapul szolgáló dokumentumok egy részéhez.

Az Anthropic Claude 2 kérdőjele jól teljesített „hosszú kontextusban”, amelyben a kérdéssel együtt szinte a teljes vonatkozó SEC-bejelentés is szerepelt. A feltett kérdések 75%-ára volt képes válaszolni, 21%-ára helytelenül, 3%-ára pedig nem tudott válaszolni. A GPT-4-Turbo szintén jól teljesített hosszú kontextusban, a kérdések 79%-ára helyesen, 17%-ára pedig helytelenül válaszolt.

(A CNBC szerint)

A nagy techcégek versenyben vannak az AI startupokba való befektetésért

A nagy techcégek versenyben vannak az AI startupokba való befektetésért

A mesterséges intelligencia megjelenése megrázta a technológiai világot , de egy dolog változatlan maradt – a Big Tech továbbra is abszolút hatalommal bír.
A mesterséges intelligencia technológia forradalmasítja az e-kereskedelmi startupokat

A mesterséges intelligencia technológia forradalmasítja az e-kereskedelmi startupokat

A versenyképes e-kereskedelmi térben a mesterséges intelligencia lehetőséget ad a startupoknak arra, hogy a technológiát kihasználva kiszolgálják az ügyfeleket és korszerűsítsék a működésüket.
A mesterséges intelligencia először alakította át sikeresen az emberi gondolatokat valósághű képekké

A mesterséges intelligencia először alakította át sikeresen az emberi gondolatokat valósághű képekké

A mesterséges intelligencia (MI) technológia segítségével az emberi gondolkodás kutatásában elért új felfedezések ahhoz hasonlíthatók, mintha egy teljesen új világ tárulna fel bennünk.