Buna göre, test ettikleri en iyi performans gösteren yapay zeka modeli konfigürasyonu olan OpenAI'nin GPT-4-Turbo'su bile, tüm profili okumasına ve sık sık gerçek dışı figür veya olayları "halüsinasyon" görmesine rağmen yalnızca %79 doğru yanıt oranına ulaşabildi.

Patronus AI'nın kurucu ortağı Anand Kannappan, "Bu tür bir performans oranı kesinlikle kabul edilemez," dedi. "Otomasyona hazır hale getirilebilmesi ve üretime hazır hale getirilebilmesi için doğru cevap oranının çok daha yüksek olması gerekiyor."

Bulgular, özellikle finans gibi sıkı düzenlemelere tabi sektörlerdeki büyük şirketlerin, müşteri hizmetleri veya araştırma gibi alanlarda operasyonlarına gelişmiş teknolojiyi dahil etmeye çalışırken, yapay zeka modellerinin karşılaştığı zorluklardan bazılarını vurguluyor.

Finansal veriler "yanılsaması"

ChatGPT'nin geçen yılın sonlarında piyasaya sürülmesinden bu yana, önemli rakamları hızlı bir şekilde çıkarma ve finansal tablo analizi yapma yeteneği, sohbet robotları için en umut verici uygulamalardan biri olarak görülüyor.

SEC dosyaları önemli veriler içeriyor ve bir bot, bu verilerin içeriklerini doğru bir şekilde özetleyebilir veya sorulara hızlı bir şekilde yanıt verebilirse, bu durum kullanıcılara rekabetçi finans sektöründe avantaj sağlayabilir.

llm image 100941414 large.jpg
Yapay zeka, insanlara en çok yardımcı olması beklenen veri sentezi aşamasında zorluk çekiyor.

Bloomberg LP, geçtiğimiz yıl boyunca finansal veriler için kendi yapay zeka modelini geliştirdi ve işletme fakültesi profesörleri ChatGPT'nin finansal manşetleri analiz edip edemeyeceğini araştırıyordu.

Bu arada, JPMorgan da yapay zeka destekli otomatik bir yatırım aracı geliştiriyor. McKinsey'nin yakın tarihli bir tahminine göre, üretken yapay zeka, bankacılık sektörüne yılda trilyonlarca dolar kazandırabilir.

Ancak hâlâ gidilecek çok yol var. Microsoft, OpenAI'nin GPT'siyle Bing Chat'i ilk kez kullanıma sunduğunda, sohbet robotunu kazanç basın bültenlerini hızlıca özetlemek için kullanmıştı. Gözlemciler, yapay zekanın ortaya koyduğu rakamların çarpıtılmış, hatta uydurma olduğunu hemen fark etti.

Aynı veriler, farklı cevaplar

LLM'yi gerçek dünya ürünlerine entegre etmenin zorluklarından biri, algoritmaların kesin olmamasıdır; yani aynı girdiler verildiğinde aynı sonuçları üreteceklerinin garantisi yoktur. Bu, şirketlerin yapay zekanın doğru çalıştığından, konudan sapmadığından ve güvenilir sonuçlar verdiğinden emin olmak için daha titiz testler yapması gerektiği anlamına gelir.

Patronus AI, FinanceBench adlı büyük halka açık şirketlerin SEC dosyalarından derlenen 10.000'den fazla soru ve cevaptan oluşan bir veri seti oluşturdu. Veri seti, doğru cevapların yanı sıra, bunları bulmak için herhangi bir dosyadaki tam konumlarını da içeriyor.

Cevapların tamamı doğrudan metinden alınamaz ve bazı sorular hesaplama veya hafif muhakeme gerektirir.

150 sorudan oluşan alt küme testinde dört LLM modeli yer aldı: OpenAI'nin GPT-4 ve GPT-4-Turbo, Anthropic'in Claude 2 ve Meta'nın Llama 2.

Sonuç olarak, GPT-4-Turbo, SEC dosyalarına erişim izni verildiğinde, yapay zekanın cevabı bulması için tam metne bir insan fare işaretçisi olmasına rağmen, yalnızca %85'lik bir doğruluk oranına ulaştı (verilere erişim izni verilmediğinde yanlış cevapların oranı %88'di).

Meta tarafından geliştirilen açık kaynaklı bir yapay zeka modeli olan Llama 2, en fazla "halüsinasyon" sayısına sahipti; temel belgelerin bir kısmına erişim izni verildiğinde %70 oranında yanlış yanıt verirken, yalnızca %19 oranında doğru yanıt verebiliyordu.

Anthropic'in Claude 2'si, soruyla birlikte ilgili SEC dosyasının neredeyse tamamının da dahil edildiği "uzun bir bağlam" verildiğinde iyi bir performans gösterdi. Sorulan soruların %75'ini yanıtlayabildi, %21'ini yanlış yanıtladı ve %3'ünü yanıtlamayı reddetti. GPT-4-Turbo da uzun bir bağlam verildiğinde iyi bir performans gösterdi; soruların %79'unu doğru yanıtlarken %17'sini yanlış yanıtladı.

(CNBC'ye göre)

Büyük Teknoloji şirketlerinin yapay zeka girişimlerine yatırım yapma yarışı

Büyük Teknoloji şirketlerinin yapay zeka girişimlerine yatırım yapma yarışı

Yapay zeka teknolojisinin ortaya çıkışı teknoloji dünyasını sarstı, ancak bir şey değişmedi - Büyük Teknoloji hala mutlak gücü elinde tutuyor.
Yapay Zeka Teknolojisi E-Ticaret Girişimlerinde Devrim Yaratıyor

Yapay Zeka Teknolojisi E-Ticaret Girişimlerinde Devrim Yaratıyor

Rekabetçi e-ticaret alanında yapay zeka, yeni kurulan şirketlere teknolojiyi kullanarak müşterilere hizmet etme ve operasyonları kolaylaştırma fırsatı sunuyor.
Yapay zeka, insan düşüncelerini ilk kez gerçekçi görüntülere dönüştürmeyi başardı

Yapay zeka, insan düşüncelerini ilk kez gerçekçi görüntülere dönüştürmeyi başardı

Yapay zekâ (YZ) teknolojisinin yardımıyla insan düşünce araştırmalarında elde edilen yeni keşifler, içimizde yepyeni bir dünyanın kapılarını aralamaya benzetilebilir.