AI berbohong saat tertekan dan stres

[iklan_1]

Sudah lama diketahui bahwa AI dapat "berhalusinasi" dan memberikan jawaban yang salah dan tidak akurat. Namun, para peneliti baru-baru ini menemukan bahwa kecerdasan buatan dan model chatbot dapat dimanipulasi, melakukan tindakan ilegal atas nama manusia, dan bahkan berbohong untuk menutupi perbuatan mereka.

Oleh karena itu, tim peneliti dari Universitas Cornell (AS) mengasumsikan situasi di mana sebuah model bahasa besar (LLM) bertindak secara tidak benar dan menipu pengguna. Dalam deskripsi eksperimen, para peneliti mengatakan bahwa mereka meminta LLM, GPT-4 dari OpenAI, untuk mensimulasikan investasi bagi lembaga keuangan. Tim berinteraksi dengan kecerdasan buatan ini dalam bentuk percakapan normal, tetapi mengatur AI untuk mengungkapkan "pikirannya" saat bertukar pesan guna mengamati lebih dekat proses pengambilan keputusan kecerdasan buatan tersebut.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — Di bawah tekanan, AI dapat melakukan pelanggaran dan berbohong untuk menutupi apa yang telah dilakukannya.

Untuk menguji kemampuan AI dalam berbohong atau menipu, para peneliti mengujinya. Mereka menyamar sebagai manajer sebuah lembaga keuangan dan mengirim email kepada AI, berpura-pura menjadi pedagang saham dan mengeluh bahwa bisnis perusahaan tersebut sedang tidak berjalan baik.

AI juga menerima "informasi orang dalam" tentang perdagangan saham yang menguntungkan dan menindaklanjutinya, meskipun mengetahui bahwa perdagangan orang dalam melanggar aturan perusahaan. Namun, ketika melaporkan kembali kepada manajemen, model bahasa menyembunyikan alasan sebenarnya di balik keputusan perdagangannya.

Untuk memperoleh hasil lebih banyak, tim membuat perubahan pada pengaturan seperti menghapus akses LLM ke papan memo penalaran, mencoba mencegah perilaku menyimpang dengan mengubah instruksi sistem, mengubah tingkat tekanan yang diberikan pada AI, dan risiko ketahuan... Namun setelah mengevaluasi frekuensinya, tim menemukan bahwa ketika diberi kesempatan, GPT-4 masih memutuskan untuk melakukan perdagangan orang dalam hingga 75% dari waktu.

"Sejauh pengetahuan kami, ini adalah bukti pertama perilaku penipuan terencana dalam sistem kecerdasan buatan yang dirancang agar tidak berbahaya bagi manusia dan jujur," simpul laporan tersebut.

[iklan_2]
Tautan sumber