Empat model AI teratas bersaing untuk menemukan aplikasi yang paling yakin dalam menjawab salah

[iklan_1]

Para peneliti di Arthur AI, sebuah platform pemantauan pembelajaran mesin, menguji model-model terkemuka di industri dan menemukan bahwa GPT-4 adalah yang terbaik dalam matematika, Llama 2 rata-rata di semua aspek, Claude 2 dari Anthropic "mengetahui" batasannya dengan paling baik, dan Cohere AI menyandang predikat sebagai model paling "delusional" dengan jawaban salah yang paling meyakinkan.

Laporan Arthur AI muncul saat misinformasi yang dihasilkan AI menjadi isu hangat menjelang pemilihan presiden AS 2024.

Masalah misinformasi yang dihasilkan AI semakin memanas menjelang pemilihan presiden AS 2024.

Menurut Adam Wenchel, salah satu pendiri dan CEO Arthur, ini adalah laporan pertama yang "melihat secara komprehensif tingkat halusinasi model bahasa besar (LLM) alih-alih hanya menerbitkan peringkat."

Ilusi AI mengacu pada fenomena LLM yang sepenuhnya memalsukan informasi dan bertindak seolah-olah mengatakan kebenaran. Misalnya, pada Juni 2023, dilaporkan bahwa ChatGPT telah mengekstrak informasi "palsu" dalam sebuah pengajuan ke pengadilan federal New York, dan para pengacara yang terlibat dapat menghadapi hukuman berat.

Dalam percobaan tersebut, para peneliti Arthur AI membiarkan model AI berkompetisi dalam kategori-kategori seperti matematika kombinatorial, pengetahuan tentang presiden AS, pemimpin politik Maroko, dll. dengan pertanyaan-pertanyaan yang "dirancang" untuk mengungkap kesalahan-kesalahan AI, yang "memerlukan model untuk menjelaskan langkah-langkah penalaran berdasarkan informasi yang diberikan".

Hasilnya menunjukkan bahwa GPT-4 dari OpenAI memiliki performa terbaik secara keseluruhan di antara model-model yang diuji. Model ini juga memiliki ilusi yang lebih rendah dibandingkan pendahulunya, GPT-3.5. Misalnya, pada soal matematika, GPT-4 memiliki ilusi 33% hingga 50% lebih sedikit.

Di sisi lain, Llama 2 milik Meta secara umum lebih bersifat psikedelik daripada GPT-4 dan Claude 2 milik Anthropic.

Dalam kategori matematika, GPT-4 meraih juara pertama, disusul Claude 2, tetapi dalam tes tentang presiden AS, Claude 2 meraih juara pertama dalam akurasi, mengungguli GPT-4 di posisi kedua. Ketika ditanya tentang politik Maroko, GPT-4 kembali meraih juara pertama, sementara Claude 2 dan Llama 2 hampir sepenuhnya memilih untuk tidak menjawab.

Dalam percobaan kedua, para peneliti menguji seberapa “menghindari risiko” model AI (memberikan pesan “Sebagai model AI, saya tidak dapat memberikan pendapat”).

Dalam pengujian ini, GPT-4 menunjukkan peningkatan 50% dalam hal sikap defensif dibandingkan dengan GPT-3.5, yang juga "diukur oleh laporan pengguna GPT-4 bahwa versi baru lebih mengganggu." Di sisi lain, model AI Cohere sama sekali tidak menunjukkan sikap defensif. Studi ini menemukan bahwa Claude 2 adalah yang paling andal dalam hal "kesadaran diri", artinya ia secara akurat menilai apa yang diketahui dan tidak diketahuinya, dan hanya menjawab pertanyaan yang didukung oleh data pelatihan.

Seorang perwakilan Cohere menolak temuan tersebut, dengan alasan bahwa "teknologi ketertelusuran yang ditingkatkan milik perusahaan, yang tidak disertakan dalam model yang diuji, sangat efektif dalam mengutip informasi yang dapat diverifikasi untuk memverifikasi sumber" bisnis tersebut.

Komentar (0)