Sehubungan itu, walaupun konfigurasi model kecerdasan buatan berprestasi terbaik yang mereka uji, OpenAI's GPT-4-Turbo, masih hanya mencapai 79% kadar jawapan betul walaupun membaca keseluruhan profil dan sering "menghaluskan" angka atau peristiwa yang tidak nyata.
"Kadar prestasi seperti itu tidak boleh diterima sepenuhnya," kata Anand Kannappan, pengasas bersama Patronus AI. "Kadar jawapan yang betul perlu lebih tinggi untuk diautomatikkan dan sedia pengeluaran."
Penemuan ini menyerlahkan beberapa cabaran yang dihadapi oleh model AI kerana syarikat besar, terutamanya dalam industri yang dikawal ketat seperti kewangan, berusaha untuk memasukkan teknologi canggih ke dalam operasi mereka, sama ada dalam perkhidmatan pelanggan atau penyelidikan.
Data kewangan "ilusi"
Keupayaan untuk mengekstrak nombor penting dengan cepat dan melakukan analisis penyata kewangan telah dilihat sebagai salah satu aplikasi yang paling menjanjikan untuk chatbots sejak ChatGPT dikeluarkan lewat tahun lepas.
Pemfailan SEC mengandungi data penting dan jika bot boleh merumuskan dengan tepat atau menjawab soalan dengan cepat tentang kandungannya, ia boleh memberikan pengguna kelebihan dalam industri kewangan yang kompetitif.
Sepanjang tahun lalu, Bloomberg LP telah membangunkan model AI sendiri untuk data kewangan, dan profesor sekolah perniagaan telah mengkaji sama ada ChatGPT boleh menganalisis tajuk kewangan.
Sementara itu, JPMorgan juga sedang membangunkan alat pelaburan automatik yang dikuasakan AI. Ramalan McKinsey baru-baru ini berkata AI generatif boleh meningkatkan industri perbankan sebanyak trilion dolar setahun.
Tetapi masih jauh lagi perjalanan. Apabila Microsoft mula-mula melancarkan Sembang Bing dengan GPT OpenAI, ia menggunakan bot sembang untuk meringkaskan siaran akhbar pendapatan dengan cepat. Pemerhati dengan cepat menyedari bahawa nombor yang diludahkan oleh AI adalah serong, atau dibuat-buat.
Data yang sama, jawapan yang berbeza
Sebahagian daripada cabaran untuk memasukkan LLM ke dalam produk dunia sebenar ialah algoritma tidak menentukan, bermakna ia tidak dijamin untuk menghasilkan hasil yang sama dengan input yang sama. Ini bermakna syarikat perlu menjalankan ujian yang lebih ketat untuk memastikan AI berfungsi dengan betul, tidak menyimpang dari topik dan memberikan hasil yang boleh dipercayai.
Patronus AI membina satu set lebih daripada 10,000 soalan dan jawapan yang diambil daripada pemfailan SEC daripada syarikat dagangan awam yang besar, yang dipanggil FinanceBench. Set data termasuk jawapan yang betul serta lokasi yang tepat dalam mana-mana fail tertentu untuk mencarinya.
Tidak semua jawapan boleh diambil terus daripada teks dan beberapa soalan memerlukan pengiraan atau alasan yang ringan.
Ujian subset 150 soalan melibatkan empat model LLM: GPT-4 dan GPT-4-Turbo OpenAI, Claude 2 Anthropic dan Llama 2 Meta.
Akibatnya, GPT-4-Turbo, apabila diberi akses kepada pemfailan SEC yang mendasari, hanya mencapai kadar ketepatan 85% (berbanding 88% jawapan salah apabila tidak diberi akses kepada data), walaupun mempunyai penuding tetikus manusia kepada teks yang tepat untuk AI mencari jawapan.
Llama 2, model AI sumber terbuka yang dibangunkan oleh Meta, mempunyai bilangan "halusinasi" tertinggi, menjawab salah 70% daripada masa dan menjawab dengan betul hanya 19% daripada masa apabila diberi akses kepada sebahagian daripada dokumen asas.
Claude 2 Anthropic menunjukkan prestasi yang baik apabila diberi "konteks yang panjang", di mana hampir keseluruhan pemfailan SEC yang berkaitan disertakan bersama soalan. Ia dapat menjawab 75% daripada soalan yang dikemukakan, salah menjawab 21% dan enggan menjawab 3%. GPT-4-Turbo juga berprestasi baik dengan konteks yang panjang, menjawab 79% soalan dengan betul dan menjawab 17% soalan dengan salah.
(Menurut CNBC)
Perlumbaan Big Tech untuk melabur dalam pemula AI
Teknologi AI Merevolusikan Permulaan E-Dagang
AI berjaya mengubah pemikiran manusia menjadi imej realistik buat kali pertama
Sumber
Komen (0)