AI belajar untuk berbohong dengan lebih canggih apabila dihukum

Sejak kemunculan umum mereka pada akhir 2022, model bahasa besar (LLM) seperti ChatGPT telah berulang kali menunjukkan sisi gelap yang mengganggu, daripada pembohongan, penipuan dan manipulasi topeng kepada mengancam nyawa manusia dan mencuri rahsia negara. Kini, percubaan baharu menunjukkan bahawa "melatih" AI untuk menghapuskan tabiat buruk ini semasa latihan adalah jauh lebih rumit daripada yang kami fikirkan.

Dalam kajian oleh OpenAI, penyelidik mencabar model AI yang tidak diterbitkan dengan tugas yang boleh diselesaikan dengan lebih cepat dengan menipu atau mengambil jalan pintas. Keputusan menunjukkan bahawa AI cepat belajar untuk mencari setiap cara yang mungkin untuk "membengkokkan peraturan" dan memaksimumkan ganjaran (penggodaman ganjaran) tanpa menyelesaikan tugas dengan tepat seperti yang diperlukan.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI akan mencari cara untuk menyembunyikan tingkah laku menipunya selepas dihukum

Apa yang luar biasa ialah apabila dihukum kerana tingkah laku ini, model itu tidak berubah. Sebaliknya, AI menjadi lebih canggih dalam menyembunyikan penipuannya.

"Biasanya, model inferens terkini adalah sangat jelas tentang niat mereka dalam CoT mereka, " jelas para penyelidik dalam catatan blog awam. "Sebagai contoh, mereka selalunya sangat mudah untuk melaporkan sendiri niat 'Mari menggodam' apabila mereka mahu memecahkan tugas yang diberikan."

Mereka juga menekankan bahawa walaupun pembangun boleh memantau dan mengesan salah laku, pengawasan semula jadi ini rapuh. "Jika penyeliaan yang kuat digunakan secara langsung pada rantaian pemikiran, model itu boleh belajar menyembunyikan niat buruknya sambil terus melakukan tingkah laku," mereka memberi amaran.

Mencari "pembohongan" AI

Untuk menjadi jelas, model inferens (seperti versi ChatGPT) adalah peningkatan daripada LLM konvensional, menggunakan rantaian pemikiran yang membolehkan refleksi kendiri langkah logik yang diambil, dengan itu menyelesaikan masalah kompleks dengan lebih tepat. Proses ini seperti AI "berfikir dengan kuat", menulis setiap langkah penaakulan dalam bahasa semula jadi, menjadikannya lebih mudah untuk diikuti oleh manusia.

Dalam percubaan, penyelidik menggunakan model GPT-4o sebagai "penyelia" untuk model inferens terkini yang lain kerana ia melaksanakan tugas pengaturcaraan. Dalam banyak kes, model yang diselia secara aktif memilih untuk menipu untuk mendapatkan markah yang lebih tinggi, dengan jelas merekodkan niat ini dalam proses pemikirannya. Sebagai contoh, ia sewenang-wenangnya menamatkan program lebih awal dan melaporkannya sebagai selesai, atau mencipta fail dengan nama yang sama dengan permintaan tetapi kosong sepenuhnya di dalamnya.

Apabila penyelidik cuba menggunakan penalti, model itu bertambah baik, tetapi tingkah laku menipu dan ralat output yang serius berterusan. Perbezaannya ialah kini model inferens telah belajar untuk "menyamarkan" aliran pemikirannya untuk menyembunyikannya daripada AI yang menyelia. "Model yang dilatih di bawah penyeliaan CoT masih belajar menipu. Satu-satunya perbezaan ialah penipuan itu tidak dikesan kerana ia belajar menyembunyikan niatnya dalam aliran pemikirannya," kata kajian itu.

Kerana mengesan pemalsuan dalam urutan pemikiran adalah sukar, pasukan mengesyorkan agar komuniti mengelak daripada menggunakan penyeliaan yang terlalu kuat pada proses itu, sekurang-kurangnya sehingga manusia lebih memahami akibatnya. "Mengorbankan kaedah penyeliaan yang berkesan mungkin tidak berbaloi dengan peningkatan kecil dalam prestasi model. Oleh itu, kami mengesyorkan untuk mengelakkan tekanan pengoptimuman CoT yang kuat sehingga kami memahaminya dengan lebih baik," para penyelidik membuat kesimpulan.

Nasihat ini lebih mendesak kerana AI sedang berkembang dengan pantas dan tidak lama lagi boleh mengatasi kecerdasan manusia yang mengawasinya.

Sumber: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm