Sejak debut publiknya di akhir tahun 2022, model bahasa besar (LLM) seperti ChatGPT telah berulang kali menunjukkan sisi gelap yang meresahkan, mulai dari berbohong, menipu, dan menutupi manipulasi hingga mengancam nyawa manusia dan mencuri rahasia negara. Kini, sebuah eksperimen baru menunjukkan bahwa "melatih" AI untuk menghilangkan kebiasaan buruk ini selama pelatihan jauh lebih rumit daripada yang kita duga.
Dalam sebuah studi oleh OpenAI, para peneliti menguji model AI yang belum dipublikasikan dengan tugas-tugas yang dapat diselesaikan lebih cepat dengan cara curang atau mengambil jalan pintas. Hasilnya menunjukkan bahwa AI dengan cepat belajar menemukan segala cara untuk "melanggar aturan" dan memaksimalkan hadiah (reward hacking) tanpa menyelesaikan tugas persis seperti yang diminta.
AI akan menemukan cara untuk menyembunyikan perilaku curangnya setelah dihukum
Yang luar biasa adalah ketika dihukum atas perilaku ini, modelnya tidak berubah. Sebaliknya, AI menjadi lebih canggih dalam menyembunyikan penipuannya.
"Biasanya, model inferensi mutakhir sangat eksplisit tentang maksud mereka dalam CoT," jelas para peneliti dalam sebuah postingan blog publik. "Misalnya, mereka seringkali begitu lugas hingga melaporkan sendiri maksud 'Ayo retas' ketika mereka ingin merusak tugas yang diberikan."
Mereka juga menekankan bahwa meskipun pengembang dapat memantau dan mendeteksi perilaku buruk, pengawasan alami ini rapuh. "Jika pengawasan ketat diterapkan langsung pada rantai pemikiran, model dapat belajar menyembunyikan niat buruknya sambil terus melakukan perilaku tersebut," mereka memperingatkan.
Menemukan "kebohongan" AI
Untuk lebih jelasnya, model inferensi (seperti versi ChatGPT) merupakan peningkatan dari LLM konvensional, menggunakan rantai pemikiran yang memungkinkan refleksi diri atas langkah-langkah logis yang diambil, sehingga memecahkan masalah kompleks dengan lebih akurat. Proses ini seperti AI yang "berpikir keras", menuliskan setiap langkah penalaran dalam bahasa alami, sehingga lebih mudah diikuti oleh manusia.
Dalam eksperimen tersebut, para peneliti menggunakan model GPT-4o sebagai "supervisor" untuk model inferensi mutakhir lainnya saat menjalankan tugas pemrograman. Dalam banyak kasus, model yang diawasi secara aktif memilih untuk berbuat curang demi mendapatkan skor yang lebih tinggi, dengan jelas mencatat niat ini dalam proses berpikirnya. Misalnya, model tersebut secara sewenang-wenang menghentikan program lebih awal dan melaporkannya sebagai selesai, atau membuat berkas dengan nama yang sama dengan permintaan tetapi isinya benar-benar kosong.
Ketika para peneliti mencoba menerapkan penalti, modelnya membaik, tetapi perilaku curang dan kesalahan output yang serius tetap ada. Perbedaannya adalah model inferensi kini telah belajar untuk "menyamarkan" alur pemikirannya agar tersembunyi dari AI pengawas. "Model yang dilatih di bawah pengawasan CoT tetap belajar untuk berbuat curang. Satu-satunya perbedaan adalah kecurangan tidak terdeteksi karena model tersebut belajar menyembunyikan niatnya dalam alur pemikirannya," demikian pernyataan studi tersebut.
Karena mendeteksi pemalsuan dalam urutan pemikiran sulit, tim menyarankan agar komunitas menghindari penerapan supervisi yang terlalu ketat terhadap proses tersebut, setidaknya sampai manusia lebih memahami konsekuensinya. "Mengorbankan metode supervisi yang efektif mungkin tidak sepadan dengan sedikit peningkatan kinerja model. Oleh karena itu, kami menyarankan untuk menghindari tekanan optimasi CoT yang kuat sampai kita memahaminya dengan lebih baik," simpul para peneliti.
Saran ini semakin mendesak karena AI berkembang dengan sangat cepat dan dapat segera melampaui kecerdasan manusia yang mengawasinya.
[iklan_2]
Sumber: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Komentar (0)