W rezultacie nawet najlepiej działająca konfiguracja modelu sztucznej inteligencji, jaką testowali, OpenAI GPT-4-Turbo, osiągnęła zaledwie 79% poprawnych odpowiedzi, pomimo przeczytania całego profilu i częstego „halucynowania” nierealnych liczb lub wydarzeń.
„Taki wskaźnik wydajności jest całkowicie nie do przyjęcia” – powiedział Anand Kannappan, współzałożyciel Patronus AI. „Współczynnik poprawnych odpowiedzi musi być znacznie wyższy, aby system mógł być zautomatyzowany i gotowy do produkcji”.
Odkrycia te podkreślają niektóre wyzwania stojące przed modelami sztucznej inteligencji, ponieważ duże firmy, zwłaszcza z branż silnie regulowanych, takich jak finanse, dążą do włączania zaawansowanych technologii do swoich działań, czy to w zakresie obsługi klienta, czy badań.
„Iluzja” danych finansowych
Możliwość szybkiego wyodrębniania kluczowych liczb i przeprowadzania analizy sprawozdań finansowych została uznana za jedno z najbardziej obiecujących zastosowań chatbotów od czasu wydania ChatGPT pod koniec ubiegłego roku.
Dokumenty składane w SEC zawierają ważne dane i jeśli bot będzie w stanie dokładnie je podsumować lub szybko odpowiedzieć na pytania dotyczące ich treści, może to dać użytkownikom przewagę w konkurencyjnej branży finansowej.
W ciągu ostatniego roku Bloomberg LP opracował własny model sztucznej inteligencji dla danych finansowych, a profesorowie szkół biznesu badali, czy ChatGPT może analizować nagłówki finansowe.
Tymczasem JPMorgan opracowuje również zautomatyzowane narzędzie inwestycyjne oparte na sztucznej inteligencji. Według niedawnej prognozy McKinsey'a, generatywna sztuczna inteligencja mogłaby zwiększyć wartość sektora bankowego o biliony dolarów rocznie.
Ale przed nami jeszcze długa droga. Kiedy Microsoft po raz pierwszy uruchomił Bing Chat z platformą GPT firmy OpenAI, wykorzystał chatbota do szybkiego podsumowania komunikatów prasowych dotyczących zysków. Obserwatorzy szybko zauważyli, że liczby podawane przez sztuczną inteligencję były przekłamane, a nawet sfabrykowane.
Te same dane, różne odpowiedzi
Częścią wyzwania związanego z wdrażaniem LLM do rzeczywistych produktów jest to, że algorytmy są niedeterministyczne, co oznacza, że nie ma gwarancji, że przy tych samych danych wejściowych dadzą takie same rezultaty. Oznacza to, że firmy muszą przeprowadzać bardziej rygorystyczne testy, aby upewnić się, że sztuczna inteligencja działa poprawnie, nie odbiega od tematu i dostarcza wiarygodnych wyników.
Patronus AI stworzył zestaw FinanceBench, składający się z ponad 10 000 pytań i odpowiedzi pochodzących z dokumentów złożonych w SEC przez duże spółki giełdowe. Zbiór danych zawiera poprawne odpowiedzi, a także dokładną lokalizację w danym pliku, w której można je znaleźć.
Nie wszystkie odpowiedzi można zaczerpnąć bezpośrednio z tekstu, a niektóre pytania wymagają obliczeń lub prostego rozumowania.
Test składający się ze 150 pytań obejmował cztery modele LLM: GPT-4 i GPT-4-Turbo firmy OpenAI, Claude 2 firmy Anthropic oraz Llama 2 firmy Meta.
W rezultacie narzędzie GPT-4-Turbo, po uzyskaniu dostępu do dokumentów SEC, osiągnęło wskaźnik dokładności wynoszący zaledwie 85% (w porównaniu do 88% niepoprawnych odpowiedzi, gdy nie uzyskano dostępu do danych), pomimo że wskaźnik myszy skierowany był na dokładny tekst, dzięki czemu sztuczna inteligencja mogła znaleźć odpowiedź.
Llama 2, model sztucznej inteligencji typu open source opracowany przez Meta, miał najwyższą liczbę „halucynacji”: udzielał niepoprawnych odpowiedzi w 70% przypadków i poprawnych odpowiedzi jedynie w 19% przypadków po uzyskaniu dostępu do części podstawowych dokumentów.
Claude 2 firmy Anthropic wypadł dobrze w „długim kontekście”, w którym pytanie zawierało niemal cały odpowiedni dokument złożony do SEC. Udało się odpowiedzieć na 75% pytań, udzielając błędnych odpowiedzi na 21% i odmawiając odpowiedzi na 3. Test GPT-4-Turbo również wypadł dobrze w długim kontekście, udzielając poprawnych odpowiedzi na 79% pytań i błędnych na 17% z nich.
(Według CNBC)
Wyścig wielkich firm technologicznych o inwestycje w startupy zajmujące się sztuczną inteligencją
Technologia AI rewolucjonizuje startupy e-commerce
Po raz pierwszy sztuczna inteligencja z powodzeniem przekształciła ludzkie myśli w realistyczne obrazy
Źródło
Komentarz (0)